- Единый Transformer для совместной генерации видео и аудио
- Поддержка текстовых и изображенческих запросов
- Синхронизированная генерация диалогов, фоновых звуков и Foley-эффектов
- Многоязычная синхронизация губ на семи языках
- Вывод видео в 1080p
- Открытый исходный код и возможность саморазвертывания