- Синхронизированная генерация аудио + видео за один проход
- Нативный 4K вывод до 50 FPS
- Мультимодальное кондиционирование: текст, изображение, видео, глубина, ключевые кадры
- Архитектура DiT на 19B параметров (14B видео + 5B аудио)
- Лицензия Apache 2.0 с открытым исходным кодом — веса модели и код доступны
- Режимы генерации Text-to-Video и Image-to-Video
- Оптимизации для эффективного инференса (NVFP4/NVFP8)