- Génération audio + vidéo synchronisée en un seul passage
- Sortie 4K native jusqu'à 50 FPS
- Conditionnement multimodal : texte, image, vidéo, profondeur, keyframes
- Architecture DiT de 19B paramètres (14B vidéo + 5B audio)
- Licence open-source Apache 2.0 avec poids et code du modèle
- Modes de génération Text-to-Video et Image-to-Video
- Optimisations pour une inférence efficace (NVFP4/NVFP8)