LTX-2 — это открытая модель базового видео с 19 миллиардами параметров (14B видео + 5B аудио), которая генерирует синхронизированное высокоразрешающее видео и аудио за один проход. Поддерживает нативное 4K (3840×2160) до 50 FPS и видеоклипы до 20 секунд, с мультимодальными входами, включая текстовые подсказки, изображения, карты глубины, ключевые кадры и короткие референсные видео. Модель обеспечивает нативный синтез звука — диалоги, фоновые звуки, музыку и Foley — выровненные с визуальными событиями. LTX-2 оптимизирован для эффективного инференса (NVFP4/NVFP8) и распространяется под Apache 2.0, чтобы команды могли скачивать веса, дообучать, деплоить локально или использовать хостированный веб-генератор (требуются кредиты).