LTX-2는 190억 파라미터의 오픈소스 비디오 기반 모델(14B 비디오 + 5B 오디오)로, 단일 패스에서 동기화된 고해상도 비디오와 오디오를 생성합니다. 네이티브 4K(3840×2160)에서 최대 50 FPS를 지원하며 동영상 클립은 최대 20초까지 가능합니다. 텍스트 프롬프트, 이미지, 깊이 맵, 키프레임, 짧은 참조 비디오 등 멀티모달 입력을 지원합니다. 모델은 대화, 환경음, 음악 및 Foley를 포함한 네이티브 오디오 합성을 제공하며 시각 이벤트에 정렬됩니다. LTX-2는 효율적인 추론(NVFP4/NVFP8)을 위해 최적화되어 있으며, 팀이 가중치를 다운로드하여 미세조정하고 로컬에 배포하거나 호스팅된 웹 생성기(크레딧 필요)를 사용할 수 있도록 Apache 2.0으로 제공됩니다.