- Dual‑Branch Diffusion Transformer‑Architektur zur gemeinsamen Generierung von Audio und Video
- Perfekte Lippensynchronisation mit Mehrsprachenunterstützung
- Kinematografische Kamerasteuerungen (Schwenk, Neigung, Zoom, Orbit)
- Text‑zu‑Video und Bild‑zu‑Video Generierung
- Echtzeit‑Videoerstellung mit bis zu 10× schnellerer Inferenzgeschwindigkeit
- Native Optimierung für die chinesische Sprache