WorFBenchは、大規模言語モデルに基づくAIエージェントの能力を評価するために設計された総合的なオープンソースフレームワークです。旅程計画からコード生成ワークフローまで、多様なタスクを提供し、それぞれに明確な目標と評価指標を設定しています。ユーザーはカスタムエージェント戦略を設定し、標準化されたAPIを通じて外部ツールと連携し、自動評価を実行して、分解、計画の深さ、ツール呼び出しの正確さ、および最終出力の質を記録できます。内蔵された可視化ダッシュボードは各エージェントの意思決定過程を追跡し、長所と短所を特定しやすくします。WorFBenchのモジュラー設計は、新しいタスクやモデルを迅速に拡張でき、再現性のある研究や比較研究を促進します。