- API HTTP unificada para chat, completación y embeddings
- Soporte para múltiples modelos back-end (OpenAI, Azure, Vertex AI, modelos locales)
- Integración con bases de datos vectoriales para generación mejorada por recuperación
- Procesamiento por lotes y caché
- Respuestas en streaming token por token
- Control de acceso basado en roles
- Exportación de métricas compatible con Prometheus