AppAgent는 대형 언어 모델과 컴퓨터 비전을 활용하여 스마트폰 사용자 인터페이스와 자율적으로 상호작용하는 연구 프레임워크입니다. 스크린샷을 캡처하고, 객체 감지와 OCR로 UI 요소를 파싱하며, LLM 프롬프트를 통해 행동 계획을 생성하고, 탭, 스와이프, 텍스트 입력을 실행하여 실시간으로 작업을 완료합니다.
AppAgent는 대형 언어 모델과 컴퓨터 비전을 활용하여 스마트폰 사용자 인터페이스와 자율적으로 상호작용하는 연구 프레임워크입니다. 스크린샷을 캡처하고, 객체 감지와 OCR로 UI 요소를 파싱하며, LLM 프롬프트를 통해 행동 계획을 생성하고, 탭, 스와이프, 텍스트 입력을 실행하여 실시간으로 작업을 완료합니다.
AppAgent는 수동 스크립팅 없이 스마트폰 애플리케이션을 작동하는 데 목적이 있는 다중모달 LLM 기반 프레임워크입니다. 화면 캡처, GUI 요소 감지, OCR 파싱, 자연어 계획을 통합하여 앱 레이아웃과 사용자 의도를 이해합니다. 이 프레임워크는 Android 장치 또는 에뮬레이터를 통해 터치 이벤트(탭, 스와이프, 텍스트 입력)를 발행하여 작업 흐름을 자동화합니다. 연구자와 개발자는 프롬프트를 사용자 지정하고, LLM API를 구성하며, 새 앱과 작업을 지원하는 모듈을 확장할 수 있어 적응적이고 확장 가능한 모바일 자동화를 실현합니다.