Die besten 連続アクション空間-Lösungen für Sie

Finden Sie bewährte 連続アクション空間-Tools, die sowohl für Anfänger als auch für Experten geeignet sind, und steigern Sie Ihre Produktivität.

連続アクション空間

  • Eine auf Keras basierende Implementierung des Multi-Agent Deep Deterministic Policy Gradient für kooperative und wettbewerbliche Multi-Agenten-RL.
    0
    0
    Was ist MADDPG-Keras?
    MADDPG-Keras liefert einen vollständigen Rahmen für die Forschung im Multi-Agenten-Verstärkungslernen, indem es den MADDPG-Algorithmus in Keras implementiert. Es unterstützt kontinuierliche Aktionsräume, mehrere Agenten und Standardumgebungen von OpenAI Gym. Forscher und Entwickler können neuronale Netzarchitekturen, Trainings-Hyperparameter und Belohnungsfunktionen konfigurieren und Experimente mit eingebautem Logging und Modell-Checkpointing starten, um das Lernen und Benchmarking von Multi-Agenten-Politiken zu beschleunigen.
    MADDPG-Keras Hauptfunktionen
    • Keras- & TensorFlow-Implementierung von MADDPG
    • Unterstützung für kontinuierliche Aktionsräume
    • Konfigurierbare Multi-Agenten-Gym-Umgebungen
    • Logging, TensorBoard-Integration und Checkpointing
    • Anpassbare neuronale Netzarchitekturen
  • MAGAIL ermöglicht es mehreren Agenten, Experten-Demonstrationen durch generatives adversariales Training nachzuahmen, wodurch flexibles Multi-Agenten-Policy-Learning gefördert wird.
    0
    0
    Was ist MAGAIL?
    MAGAIL implementiert eine Multi-Agenten-Erweiterung des Generativen Adversarial Imitation Learning, die Gruppen von Agenten befähigt, koordinierte Verhaltensweisen aus Experten-Demonstrationen zu erlernen. In Python gebaut mit Unterstützung für PyTorch (oder TensorFlow-Varianten), besteht MAGAIL aus Policy (Generator) und Diskriminator-Modulen, die in einer adversarialen Schleife trainiert werden. Agenten erzeugen Trajektorien in Umgebungen wie OpenAI Multi-Agent Particle Environment oder PettingZoo, die vom Diskriminator zur Bewertung der Authentizität mit den Experten-Daten verwendet werden. Durch iterative Aktualisierungen konvergieren Policy-Netzwerke zu strategieähnlichen Verhaltensweisen, ohne explizite Belohnungsfunktionen. Das modulare Design von MAGAIL erlaubt die Anpassung von Netzwerkarchitekturen, die Ingestion von Experten-Daten, die Environment-Integration und Hyperparameter-Optimierung. Zudem erleichtern integriertes Logging und TensorBoard-Visualisierung die Überwachung und Analyse des Lernfortschritts sowie Leistungsbenchmarks.
Ausgewählt