- API HTTP unifiée pour chat, complétion et embeddings
- Support multi-modèles backend (OpenAI, Azure, Vertex AI, modèles locaux)
- Intégration de bases de données vectorielles pour génération augmentée par récupération
- Batching de demandes et mise en cache
- Réponses en streaming token par token
- Contrôle d’accès basé sur les rôles
- Export de métriques compatible Prometheus