AppAgent ist ein multimodales Agenten-Framework auf Basis von LLM, das entwickelt wurde, um Smartphone-Apps ohne manuelles Scripting zu steuern. Es integriert Bildschirmaufnahme, GUI-Elementerkennung, OCR-Parsing und natürliche Sprachplanung, um App-Layouts und Benutzerabsichten zu verstehen. Das Framework steuert Touch-Events (Tippen, Wischen, Texteingabe) über ein Android-Gerät oder Emulator, um Arbeitsabläufe zu automatisieren. Forscher und Entwickler können Eingabeaufforderungen anpassen, LLM-APIs konfigurieren und Module erweitern, um neue Apps und Aufgaben zu unterstützen, und so eine adaptive und skalierbare mobile Automatisierung erreichen.