LTX-2 是一個 190 億參數的開源視頻基礎模型(14B 視頻 + 5B 音頻),可在單次生成中產生同步的高解析度視頻和音頻。它支持原生 4K(3840×2160)最高 50 FPS,視頻片段最長可達 20 秒,並接受包括文字提示、圖片、深度圖、關鍵幀和短片段參考視頻在內的多模態輸入。該模型提供原生音頻合成——對話、環境音、音樂與 Foley——與視覺事件對齊。LTX-2 已針對高效推理(NVFP4/NVFP8)進行優化,並以 Apache 2.0 發佈,團隊可以下載權重、進行微調、本地部署或使用託管的網頁生成器(需點數)。