

高評分표준화된 테스트工具

探索使用者最推薦的표준화된 테스트工具，以高效、穩定的解決方案提升您的工作品質。

표준화된 테스트

Open Agent Leaderboard
Open Agent Leaderboard 評估並排名開源 AI 代理人，涵蓋推理、規劃、問答和工具 Utilization 等任務。

0


0
訪問AI
Open Agent Leaderboard 是什麼？
Open Agent Leaderboard 提供完整的開源 AI 代理人評估流程，包括涵蓋推理、規劃、問答和工具使用的策劃任務集、自動化運行代理的隔離環境、以及收集成功率、運行時間和資源消耗等性能指標的腳本。結果匯總後在基於網頁的排行榜上展示，並具備過濾、圖表及歷史比較功能。此框架支持 Docker 以確保重現性，提供流行代理架構的整合模板，以及擴展性配置以方便新增任務或指標。
Open Agent Leaderboard 核心功能

自動基準測試工具

多樣化任務集（推理、規劃、問答、工具使用）

互動式網頁排行榜

定制代理整合模板

支持 Docker 的重現性

指標追蹤與視覺化

社群提交流程



精選