- Text-zu-Video, Bild-zu-Video und Referenz-zu-Video Generierung
- Erste- und Letzte-Frame-Kontrolle
- 9-Grid Bild-zu-Video strukturierter Input
- Unterstützung für Subjekt plus Stimmen-Referenz und bis zu 5 Video-Referenzen
- Instruktionsbasiertes natürlichsprachliches Editing und Video-Rekreation
- Native Audio-Synchronisation und lip-sync-aware Audio-Generierung
- 2–15 Sekunden Dauer, 1080p Ausgabe