AppAgent는 수동 스크립팅 없이 스마트폰 애플리케이션을 작동하는 데 목적이 있는 다중모달 LLM 기반 프레임워크입니다. 화면 캡처, GUI 요소 감지, OCR 파싱, 자연어 계획을 통합하여 앱 레이아웃과 사용자 의도를 이해합니다. 이 프레임워크는 Android 장치 또는 에뮬레이터를 통해 터치 이벤트(탭, 스와이프, 텍스트 입력)를 발행하여 작업 흐름을 자동화합니다. 연구자와 개발자는 프롬프트를 사용자 지정하고, LLM API를 구성하며, 새 앱과 작업을 지원하는 모듈을 확장할 수 있어 적응적이고 확장 가능한 모바일 자동화를 실현합니다.