- Architecture modulaire d'agents multimodaux
- Compréhension d'image via CLIP ou encodeurs personnalisés
- Pipeline de raisonnement en chaîne de pensée
- Génération de langage avec GPT ou alternatives
- Modèles de prompts configurables et plugins
- Échange facile de modèles et extension