- Arquitetura Dual-Branch Diffusion Transformer para geração conjunta de áudio e vídeo
- Sincronização labial perfeita com suporte multilingue
- Controles cinematográficos de câmera (pan, tilt, zoom, orbit)
- Geração de texto para vídeo e de imagem para vídeo
- Criação de vídeo em tempo real com velocidade de inferência 10× mais rápida
- Otimização nativa para idioma chinês