- Geração sincronizada de áudio + vídeo em passagem única
- Saída 4K nativa até 50 FPS
- Condicionamento multimodal: texto, imagem, vídeo, profundidade, keyframes
- Arquitetura DiT de 19B parâmetros (14B vídeo + 5B áudio)
- Licença open-source Apache 2.0 com pesos e código
- Modos de geração Text-to-Video e Image-to-Video
- Otimizações para inferência eficiente (NVFP4/NVFP8)