- Modulare multimodale Agenten-Architektur
- Bildverständnis via CLIP oder benutzerdefinierten Enkodern
- Chain-of-Thought-Reasoning-Pipeline
- Sprachgenerierung mit GPT oder Alternativen
- Konfigurierbare Prompt-Vorlagen und Plugins
- Einfacher Modellwechsel und Erweiterbarkeit