- Generación texto→vídeo, imagen→vídeo y referencia→vídeo
- Control de primer y último fotograma
- Entrada estructurada 9-grid imagen→vídeo
- Soporte para referencia de sujeto + voz y hasta 5 referencias de vídeo
- Edición por instrucciones en lenguaje natural y recreación de vídeo
- Sincronización de audio nativa y generación de audio consciente de lip-sync
- Duración 2–15 segundos, salida 1080p