- Einheitlicher Transformer für die gemeinsame Video- und Audiogenerierung
- Unterstützung für Text- und Bildprompts
- Synchronisierte Generierung von Dialogen, Umgebungsgeräuschen und Foley-Sounds
- Mehrsprachiger Lippenabgleich in sieben Sprachen
- 1080p-Videoausgabe
- Open-Source- und selbst hostbare Bereitstellung