- Tarefas diversificadas de benchmarking baseadas em fluxo de trabalho
- Métricas de avaliação padronizadas
- Interface modular de agentes para LLMs
- Implementações de agentes de referência
- Suporte à orquestração multi-ferramenta
- Painel de visualização de resultados