Open Agent Leaderboardは、推論、計画、質問応答、ツール利用を含む一連の難易度の高いタスクを自動評価するオープンソースのベンチマークフレームワークです。標準化されたシナリオ、指標、およびランキングリストを提供し、開発者はパフォーマンスの比較や進捗の追跡が可能です。貢献者は新しいエージェントを提出したり、タスクをカスタマイズしたり、インタラクティブなダッシュボードで結果を可視化したりでき、協力と透明性を促進します。
Open Agent Leaderboardは、推論、計画、質問応答、ツール利用を含む一連の難易度の高いタスクを自動評価するオープンソースのベンチマークフレームワークです。標準化されたシナリオ、指標、およびランキングリストを提供し、開発者はパフォーマンスの比較や進捗の追跡が可能です。貢献者は新しいエージェントを提出したり、タスクをカスタマイズしたり、インタラクティブなダッシュボードで結果を可視化したりでき、協力と透明性を促進します。
Open Agent Leaderboardは、オープンソースのAIエージェントの評価パイプラインを提供します。推論、計画、質問応答、ツール使用をカバーする厳選されたタスク群、自動実行可能なハーネス、成功率、実行時間、リソース消費などのパフォーマンス指標を収集するスクリプトを備えています。結果は集約され、フィルターやチャート、履歴比較が可能なウェブベースのリーダーボードに表示されます。Dockerによる再現性のある設定、人気のエージェントアーキテクチャ向けの統合テンプレート、拡張可能な構成により、新しいタスクや指標を容易に追加できます。