- Sistema automatizado de benchmarking
- Conjunto diversificado de tarefas (raciocínio, planejamento, Q&A, uso de ferramentas)
- Leaderboard interativo baseado na web
- Templates para integração de agentes personalizados
- Suporte a Docker para reprodutibilidade
- Acompanhamento e visualização de métricas
- Fluxo de trabalho comunitário para submissão