- API HTTP unificada para chat, conclusão e embeddings
- Suporte a múltiplos modelos backend (OpenAI, Azure, Vertex AI, modelos locais)
- Integração com banco de dados vetorial para geração aprimorada por recuperação
- Processamento em lote de pedidos e cache
- Respostas em streaming token por token
- Controle de acesso baseado em papéis
- Exportação de métricas compatíveis com Prometheus