- Geração de texto→vídeo, imagem→vídeo e referência→vídeo
- Controle de primeiro e último quadro
- Entrada estruturada 9-grid imagem→vídeo
- Suporte para referência de sujeito + voz e até 5 referências de vídeo
- Edição por instruções em linguagem natural e recriação de vídeo
- Sincronização nativa de áudio e geração de áudio com consciência de lip-sync
- Duração de 2–15 segundos, saída 1080p