- Transformer unificado para geração conjunta de vídeo e áudio
- Suporte a prompts de texto e imagem
- Geração sincronizada de diálogos, som ambiente e efeitos Foley
- Sincronização labial multilíngue em sete idiomas
- Saída de vídeo em 1080p
- Implantação de código aberto e auto-hospedável