SeeAct는 관찰된 장면에 기반하여 하위 목표를 생성하는 대형 언어 모델 기반 계획 모듈과, 하위 목표를 환경별 행동으로 번역하는 실행 모듈의 이단계 파이프라인으로 비전-언어 에이전트를 강화하도록 설계되었습니다. 인지 백본은 이미지 또는 시뮬레이션에서 객체 및 장면 특징을 추출합니다. 모듈식 아키텍처는 계획자 또는 인지 네트워크의 교체를 쉽게 하며, AI2-THOR, Habitat 및 커스텀 환경에서 평가를 지원합니다. SeeAct는 엔드 투 엔드 작업 분해, 그라운딩, 실행을 제공하여 상호작용하는 내장형 AI 연구를 가속화합니다.