- API unifiée pour plusieurs modèles linguistiques
- Support pour backends de modèles locaux et hébergés
- Modélisation d’invites et gestion de pipelines
- Traitement en lot et streaming de réponses
- Switch entre backends GPU et CPU
- Utilitaires de mise en cache et de benchmarking des réponses