- Transformer unifié pour la génération conjointe de vidéo et d’audio
- Prise en charge des prompts texte et image
- Génération synchronisée de dialogues, de sons d’ambiance et de bruitages Foley
- Lip-sync multilingue en sept langues
- Sortie vidéo en 1080p
- Déploiement open source et auto-hébergeable