- Einheitliche HTTP-API für Chat, Completion und Embeddings
- Unterstützung für Multi-Model-Backends (OpenAI, Azure, Vertex AI, lokale Modelle)
- Integration von Vektor-Datenbanken für retrieval-augmented Generation
- Request-Batching und Caching
- Streaming tokenweiser Antworten
- Rollenbasierte Zugriffskontrolle
- Prometheus-kompatibler Metrik-Export