AppAgent es un marco de agente multimodal basado en LLM diseñado para operar aplicaciones en smartphones sin scripting manual. Integra captura de pantalla, detección de elementos GUI, análisis OCR y planificación en lenguaje natural para entender los diseños de las aplicaciones y las intenciones del usuario. El marco envía eventos táctiles (toque, deslizamiento, entrada de texto) a través de un dispositivo Android o emulador para automatizar flujos de trabajo. Investigadores y desarrolladores pueden personalizar prompts, configurar APIs LLM y ampliar módulos para soportar nuevas apps y tareas, logrando una automatización móvil adaptable y escalable.