- Génération texte→vidéo, image→vidéo et référence→vidéo
- Contrôle de la première et de la dernière image
- Entrée structurée 9-grilles image→vidéo
- Prise en charge du sujet + référence vocale et jusqu'à 5 références vidéo
- Édition basée sur instructions en langage naturel et recréation vidéo
- Synchronisation audio native et génération audio aware lip-sync
- Durée 2–15 secondes, sortie 1080p