Pits and Orbs ist eine Open-Source-Umgebung für Verstärkendes Lernen, implementiert in Python, die eine rundenbasierte Multi-Agenten-Gitterswelt bietet, in der Agenten Zielsetzungen verfolgen und Umweltgefahren begegnen. Jeder Agent muss ein anpassbares Gitter navigieren, zufällig platzierte Fallen meiden, die Episoden bestrafen oder beenden, und Orbs für positive Belohnungen sammeln. Die Umgebung unterstützt sowohl Wettbewerbs- als auch Kooperationsmodi, sodass Forscher verschiedene Lernszenarien erkunden können. Ihre einfache API integriert sich nahtlos mit beliebten RL-Bibliotheken wie Stable Baselines oder RLlib. Zu den Hauptmerkmalen gehören anpassbare Gittergrößen, dynamische Fallen- und Orb-Verteilungen, konfigurierbare Belohnungsstrukturen und optionales Logging für das Trainings-Tracking.
Pits and Orbs Hauptfunktionen
Turn-based Multi-Agenten-Gittersimulation
Anpassbare Gittergröße und Layout
Zufällige Fallen und Orb-Belohnungen
Unterstützung für wettbewerblichen und kooperativen Modus
Die Beer Game Environment bietet eine diskrete Zeitsimulation einer vierstufigen Bierlieferkette — Einzelhändler, Großhändler, Distributor und Hersteller — mit einer OpenAI Gym-Schnittstelle. Agenten erhalten Beobachtungen wie Bestände, Pipeline-Bestände und eingehende Bestellungen und geben Bestellmengen aus. Die Umgebung berechnet Per-Schritt-Kosten für Lagerhaltung und Rückstände und unterstützt anpassbare Nachfragesdistributoren und Vorlaufzeiten. Sie integriert sich nahtlos mit beliebten RL-Bibliotheken wie Stable Baselines3, was Forschern und Lehrenden ermöglicht, Algorithmen im Bereich Supply-Chain-Optimierung zu benchmarken und zu trainieren.