- Transformer unificado para la generación conjunta de video y audio
- Compatibilidad con indicaciones de texto e imagen
- Generación sincronizada de diálogos, sonido ambiental y efectos Foley
- Sincronización labial multilingüe en siete idiomas
- Salida de video en 1080p
- Despliegue de código abierto y autoalojable