- Tareas de referencia variadas basadas en flujos de trabajo
- Métricas de evaluación estandarizadas
- Interfaz modular para agentes LLM
- Implementaciones de agentes de referencia
- Soporte para orquestación de múltiples herramientas
- Tablero de visualización de resultados