LTX-2 est un modèle fondation vidéo open-source de 19 milliards de paramètres (14B vidéo + 5B audio) qui génère en un seul passage la vidéo et l'audio haute résolution synchronisés. Il prend en charge le 4K natif (3840×2160) jusqu'à 50 FPS et des clips vidéo jusqu'à 20 secondes, avec des entrées multimodales incluant prompts textuels, images, cartes de profondeur, keyframes et courtes vidéos de référence. Le modèle fournit une synthèse audio native — dialogues, ambiances, musique et Foley — alignée sur les événements visuels. LTX-2 est optimisé pour une inférence efficace (NVFP4/NVFP8) et est distribué sous Apache 2.0 afin que les équipes puissent télécharger les poids, affiner, déployer localement ou utiliser le générateur web hébergé (crédits requis).