Ein Open-Source-Multi-Agenten-Verstärkungslern-Simulator, der skalierbares paralleles Training, anpassbare Umgebungen und Agenten-Kommunikationsprotokolle ermöglicht.
Der MARL Simulator ist darauf ausgelegt, die effiziente und skalierbare Entwicklung von Mehragenten-Verstärkungslern-Algorithmen zu erleichtern. Durch die Nutzung des verteilten Backends von PyTorch können Benutzer paralleles Training auf mehreren GPUs oder Knoten durchführen, was die Experimentdauer erheblich verkürzt. Der Simulator bietet eine modulare Umgebungs-Schnittstelle, die Standard-Benchmark-Szenarien wie kooperative Navigation, Räuber-Hund und Gitterwelt sowie benutzerdefinierte Umgebungen unterstützt. Agenten können verschiedene Kommunikationsprotokolle verwenden, um Aktionen zu koordinieren, Beobachtungen zu teilen und Belohnungen zu synchronisieren. Konfigurierbare Belohnungs- und Beobachtungsräume ermöglichen eine fein abgestimmte Steuerung der Trainingsdynamik, während integrierte Logging- und Visualisierungstools Echtzeit-Einblicke in Leistungsmetriken bieten.
Dieses Repository implementiert emergente Kommunikation im Multi-Agenten-Verstärkungslernen mit PyTorch. Benutzer können neuronale Netzwerke für Sender und Empfänger konfigurieren, um referenzielle Spiele oder kooperative Navigation zu spielen, und so Agenten dazu ermutigen, einen diskreten oder kontinuierlichen Kommunikationskanal zu entwickeln. Es bietet Skripte für Training, Bewertung und Visualisierung gelernter Protokolle sowie Hilfsmittel für die Erstellung von Umgebungen, Nachrichtenkodierung und -decodierung. Forscher können es mit benutzerdefinierten Aufgaben erweitern, Netzarchitekturen anpassen und die Effizienz der Protokolle analysieren, um schnelle Experimente in emergenter Agentenkommunikation zu ermöglichen.
Vanilla Agents ist ein leichtgewichtiges, auf PyTorch basierendes Framework, das modulare und erweiterbare Implementierungen wesentlicher Reinforcement-Learning-Agenten liefert. Es unterstützt Algorithmen wie DQN, Double DQN, PPO und A2C, mit anpassbaren Umwelt-Wrappern, die mit OpenAI Gym kompatibel sind. Benutzer können Hyperparameter konfigurieren, Trainingsmetriken protokollieren, Checkpoints speichern und Lernkurven visualisieren. Der Code ist klar strukturiert, ideal für Forschungsprototypen, Bildungszwecke und Benchmarking neuer Ideen im RL.