- Text‑zu‑Video‑Generierung mit Multi‑Shot‑Storytelling
- Bild‑zu‑Video‑Transformation mit Subjektkonsistenz
- Dual Branch‑Generierung, die synchronisiertes Audio und Video produziert
- Phonem‑level Lippen‑Sync in 8+ Sprachen
- Natürliche Bewegungssynthese für realistische und stabile Bewegungen
- Unterstützung mehrerer Seitenverhältnisse und bis zu 2K Auflösung
- Vielseitige Stilsteuerung (fotorealistisch, Anime, Stop‑Motion)