- Arquitectura Dual‑Branch Diffusion Transformer para generación conjunta de audio y vídeo
- Sincronización labial perfecta con soporte multilingüe
- Controles cinematográficos de cámara (paneo, inclinación, zoom, órbita)
- Generación de texto a vídeo e imagen a vídeo
- Creación de vídeo en tiempo real con velocidad de inferencia 10× superior
- Optimización nativa para el idioma chino