Open Agent Leaderboard 是一個開源基準測試框架,能自動評估 AI 代理人在一系列具有挑戰性的任務中,包括推理、規劃、問答和工具 Utilization。它提供標準化的場景、指標和排行榜,使開發者能比較性能並追蹤進展。貢獻者可以提交新代理人、定制任務,並通過互動式儀表板視覺化結果,促進合作與透明化。
Open Agent Leaderboard 是一個開源基準測試框架,能自動評估 AI 代理人在一系列具有挑戰性的任務中,包括推理、規劃、問答和工具 Utilization。它提供標準化的場景、指標和排行榜,使開發者能比較性能並追蹤進展。貢獻者可以提交新代理人、定制任務,並通過互動式儀表板視覺化結果,促進合作與透明化。
Open Agent Leaderboard 提供完整的開源 AI 代理人評估流程,包括涵蓋推理、規劃、問答和工具使用的策劃任務集、自動化運行代理的隔離環境、以及收集成功率、運行時間和資源消耗等性能指標的腳本。結果匯總後在基於網頁的排行榜上展示,並具備過濾、圖表及歷史比較功能。此框架支持 Docker 以確保重現性,提供流行代理架構的整合模板,以及擴展性配置以方便新增任務或指標。