LTX-2 は 190 億パラメータのオープンソース動画基盤モデル(14B 動画 + 5B 音声)で、単一パスで同期された高解像度の動画と音声を生成します。ネイティブ 4K(3840×2160)で最大 50 FPS、動画クリップは最大 20 秒まで対応し、テキストプロンプト、画像、深度マップ、キーフレーム、短い参照動画などのマルチモーダル入力に対応します。モデルはダイアログ、環境音、音楽、フォーリーを含むネイティブ音声合成を提供し、視覚イベントに合わせて整合されます。LTX-2 は効率的な推論(NVFP4/NVFP8)向けに最適化されており、Apache 2.0 の下で配布されるため、チームは重みをダウンロードして微調整し、ローカルにデプロイするか、ホストされたウェブ生成器(クレジットが必要)を使用できます。