LTX-2 ist ein 19-Milliarden-Parameter Open-Source-Video-Foundation-Modell (14B Video + 5B Audio), das synchronisiertes hochauflösendes Video und Audio in einem einzelnen Durchgang erzeugt. Es unterstützt natives 4K (3840×2160) mit bis zu 50 FPS und Videoclips von bis zu 20 Sekunden sowie multimodale Eingaben einschließlich Text-Prompts, Bilder, Tiefenkarten, Keyframes und kurzen Referenzvideos. Das Modell bietet native Audiogenerierung—Dialoge, Umgebungsgeräusche, Musik und Foley—auf Ereignisse im Bild synchronisiert. LTX-2 ist für effiziente Inferenz (NVFP4/NVFP8) optimiert und wird unter Apache 2.0 ausgeliefert, sodass Teams Gewichte herunterladen, feinabstimmen, lokal einsetzen oder den gehosteten Web-Generator nutzen können (Credits erforderlich).