RoboCup Rescue Agent Simulation ist ein Open-Source-Framework, das städtische Katastrophenumgebungen modelliert, in denen mehrere KI-gesteuerte Agenten zusammenarbeiten, um Opfer zu lokalisieren und zu retten. Es bietet Schnittstellen für Navigation, Kartierung, Kommunikation und Sensorschnittstellen. Benutzer können individuelle Agentenstrategien skripten, Batch-Experimente durchführen und die Leistungskennzahlen der Agenten visualisieren. Die Plattform unterstützt Szenarienkonfiguration, Protokollierung und Ergebnisauswertung, um die Forschung in Multi-Agenten-Systemen und Katastrophenreaktionsalgorithmen zu beschleunigen.
WorFBench ist ein Open-Source-Benchmark-Framework, das KI-Agenten auf Grundlage großer Sprachmodelle hinsichtlich Aufgabenzerlegung, Planung und Multi-Tool-Orchestrierung bewertet.
WorFBench ist ein umfassendes Open-Source-Framework zur Bewertung der Fähigkeiten von KI-Agenten basierend auf großen Sprachmodellen. Es bietet eine vielfältige Aufgabenpalette – von Reiseplanung bis zu Code-Generierungs-Workflows – alle mit klar definierten Zielen und Evaluationsmetriken. Nutzer können benutzerdefinierte Agentenstrategien konfigurieren, externe Tools über standardisierte APIs integrieren und automatisierte Bewertungen durchführen, die Leistung bei Zerlegung, Planungstiefe, Tool-Aufrufgenauigkeit und Endergebnisqualität aufzeichnen. Eingebaute Visualisierungs-Dashboards helfen, den Entscheidungsweg jedes Agenten nachzuvollziehen, wodurch Stärken und Schwächen leicht identifiziert werden können. Das modulare Design von WorFBench ermöglicht eine schnelle Erweiterung um neue Aufgaben oder Modelle und fördert reproduzierbare Forschung sowie vergleichende Studien.