- Rastreo de benchmarks automatizado
- Diversidad de tareas (razonamiento, planificación, Q&A, uso de herramientas)
- Tabla de clasificación interactiva basada en la web
- Plantillas de integración de agentes personalizadas
- Soporte de Docker para reproducibilidad
- Seguimiento y visualización de métricas
- Proceso de contribución comunitaria