- Environnement de benchmarking automatisé
- Suite de tâches diversifiées (raisonnement, planification, Q&R, utilisation d'outils)
- Tableau de classement interactif sur le web
- Modèles d'intégration pour agents personnalisés
- Support Docker pour la reproductibilité
- Suivi et visualisation des métriques
- Flux de soumission communautaire