- Arquitectura modular de agentes multimodales
- Comprensión de imágenes mediante CLIP o codificadores personalizados
- Pipeline de razonamiento en cadena
- Generación de lenguaje con GPT o alternativas
- Plantillas de prompts y plugins configurables
- Intercambio de modelos y extensión sencilla