- Step1: GitHubからWorFBenchリポジトリをクローンします
- Step2: pipまたはcondaを使用して依存関係をインストールします
- Step3: config.yamlでAPIキーとモデルエンドポイントを設定します
- Step4: tasksフォルダ内でベンチマークタスクを選択または定義します
- Step5: 評価スクリプトを実行してエージェントをタスクに対して動作させます
- Step6: 提供された可視化ツールを使って結果を分析します
- Step7: 新しい実験のためにタスクや指標を拡張またはカスタマイズします