AppAgent é uma estrutura de agente multimodal baseada em LLM projetada para operar aplicativos de smartphone sem script manual. Ela integra captura de tela, detecção de elementos GUI, análise OCR e planejamento em linguagem natural para entender layouts de aplicativos e intenções do usuário. A estrutura emite eventos de toque (toque, deslizamento, entrada de texto) através de um dispositivo Android ou emulador para automatizar fluxos de trabalho. Pesquisadores e desenvolvedores podem personalizar prompts, configurar APIs de LLM e estender módulos para suportar novos aplicativos e tarefas, alcançando automação móvel adaptável e escalável.