- API unificada para múltiplos modelos de linguagem
- Suporte para backends de modelos locais e hospedados
- Template de prompts e gerenciamento de pipelines
- Processamento em lote e streaming de respostas
- Troca entre backends de GPU e CPU
- Cache de respostas e utilitários de benchmark