- Schritt 1: Klonen Sie das WorFBench-Repository von GitHub
- Schritt 2: Installieren Sie Abhängigkeiten via pip oder conda
- Schritt 3: Konfigurieren Sie API-Schlüssel und Model-Endpoints in config.yaml
- Schritt 4: Wählen oder definieren Sie Benchmark-Aufgaben im Aufgabenordner
- Schritt 5: Führen Sie Bewertungs-Skripte aus, um Agenten gegen Aufgaben testen
- Schritt 6: Nutzen Sie die bereitgestellten Visualisierungstools zur Ergebnisanalyse
- Schritt 7: Erweitern oder passen Sie Aufgaben und Metriken für neue Experimente an