- Генерация текст→видео, изображение→видео и по референсу→видео
- Контроль первого и последнего кадра
- Структурированный ввод 9-сеточного изображения→видео
- Поддержка эталона субъекта плюс голос и до 5 видео-референсов
- Инструкционное редактирование на естественном языке и воссоздание видео
- Встроенная синхронизация аудио и генерация звука с учётом синхронизации губ
- Длительность 2–15 секунд, вывод 1080p