LTX-2는 190억 파라미터의 오픈소스 비디오 기반 모델(14B 비디오 + 5B 오디오)로, 단일 패스에서 동기화된 고해상도 비디오와 오디오를 생성합니다. 네이티브 4K(3840×2160)에서 최대 50 FPS를 지원하며 동영상 클립은 최대 20초까지 가능합니다. 텍스트 프롬프트, 이미지, 깊이 맵, 키프레임, 짧은 참조 비디오 등 멀티모달 입력을 지원합니다. 모델은 대화, 환경음, 음악 및 Foley를 포함한 네이티브 오디오 합성을 제공하며 시각 이벤트에 정렬됩니다. LTX-2는 효율적인 추론(NVFP4/NVFP8)을 위해 최적화되어 있으며, 팀이 가중치를 다운로드하여 미세조정하고 로컬에 배포하거나 호스팅된 웹 생성기(크레딧 필요)를 사용할 수 있도록 Apache 2.0으로 제공됩니다.
Wan 2.5는 동기화된 오디오 및 비디오 생성용 네이티브 멀티모달 기능을 제공하는 최첨단 AI 비디오 생성 플랫폼입니다. 텍스트, 이미지, 비디오 및 오디오 입력을 지원하며, 보컬 및 음향 효과를 포함한 정밀한 오디오 동기화가 적용된 시네마틱 품질의 1080p HD 비디오를 생성합니다. Apache 2.0 오픈소스 라이선스를 사용하며, 소비자 GPU에 최적화되어 영화 제작, AI 연구, 인터랙티브 교육, 창의적 프로토타이핑 등 다양한 용도로 설계되었습니다. 인간 피드백을 통한 강화 학습으로 품질과 사용자 경험을 지속 개선합니다.