Agent TARS는 고급 컴퓨터 비전과 자연어 처리 기술을 결합하여 그래픽 사용자 인터페이스(GUI)를 이해하고 조작합니다. 웹 페이지의 시각적 표현을 캡처하여 버튼, 양식, 테이블 및 기타 페이지 요소를 식별할 수 있습니다. 사용자는 자연어 프롬프트를 통해 TARS에게 명령을 내려 여러 페이지에 걸쳐 클릭, 스크롤, 텍스트 추출 또는 양식 채우기를 수행합니다. 맞춤형 워크플로우를 지원하여 계정 로그인, 데이터 스크래핑, 결과를 CSV 또는 JSON으로 내보내기와 같은 작업을 연속적으로 실행할 수 있습니다. 헤드리스와 헤드풀 브라우저 모드를 모두 지원하여 상호작용 탐색과 무인 자동화를 가능하게 하며, 시험, 데이터 수집, 일상 브라우저 작업에 적합합니다.