- Generación sincronizada de audio + vídeo en una sola pasada
- Salida 4K nativa hasta 50 FPS
- Condicionamiento multimodal: texto, imagen, vídeo, profundidad, keyframes
- Arquitectura DiT de 19B parámetros (14B video + 5B audio)
- Licencia de código abierto Apache 2.0 con pesos y código
- Modos de generación Text-to-Video e Image-to-Video
- Optimizaciones para inferencia eficiente (NVFP4/NVFP8)