AppAgent est un cadre d'agent multimodal basé sur LLM conçu pour faire fonctionner des applications smartphone sans scripting manuel. Il intègre la capture d'écran, la détection d'éléments GUI, l'analyse OCR et la planification en langage naturel pour comprendre la disposition des applications et les intentions des utilisateurs. Le cadre envoie des événements tactiles (tap, swipe, saisie de texte) via un appareil Android ou un émulateur pour automatiser les flux de travail. Les chercheurs et développeurs peuvent personnaliser les invites, configurer les API LLM et étendre les modules pour supporter de nouvelles applications et tâches, réalisant une automatisation mobile adaptative et évolutive.