- Arquitetura de agente multimodal modular
- Compreensão de imagem via CLIP ou codificadores personalizados
- Pipeline de raciocínio em cadeia
- Geração de linguagem com GPT ou alternativas
- Modelos de prompt configuráveis e plugins
- Troca fácil de modelos e extensões