Die besten fonctions de récompense personnalisées-Lösungen für Sie

Finden Sie bewährte fonctions de récompense personnalisées-Tools, die sowohl für Anfänger als auch für Experten geeignet sind, und steigern Sie Ihre Produktivität.

fonctions de récompense personnalisées

  • Gym-Recsys bietet anpassbare OpenAI Gym-Umgebungen für skalierbares Training und Bewertung von Verstärkungslern-Empfehlungsagenten
    0
    0
    Was ist Gym-Recsys?
    Gym-Recsys ist ein Werkzeugkasten, der Empfehlungaufgaben in OpenAI Gym-Umgebungen verpackt und Verstärkungslern-Algorithmen ermöglicht, Schritt für Schritt mit simulierten Benutzer-Objekt-Tabellen zu interagieren. Es bietet synthetische Benutzungsverhaltensgeneratoren, unterstützt das Laden beliebter Datensätze und liefert Standardempfehlungsmetriken wie Precision@K und NDCG. Benutzer können Belohnungsfunktionen, Benutzermodelle und Objektpools anpassen, um verschiedene RL-basierte Empfehlungstrategien reproduzierbar zu experimentieren.
  • gym-fx bietet eine anpassbare OpenAI Gym-Umgebung zur Schulung und Bewertung von Verstärkungslernagenten für Forex-Handelsstrategien.
    0
    0
    Was ist gym-fx?
    gym-fx ist eine Open-Source-Python-Bibliothek, die eine simulierte Forex-Handelsumgebung mit der OpenAI Gym-Schnittstelle implementiert. Sie bietet Unterstützung für mehrere Währungspaare, die Integration historischer Kursdaten, technische Indikatoren und vollständig anpassbare Belohnungsfunktionen. Durch eine standardisierte API vereinfacht gym-fx das Benchmarking und die Entwicklung von Reinforcement-Learning-Algorithmen für den algorithmischen Handel. Nutzer können Marktschlitzung, Transaktionskosten und Beobachtungsräume konfigurieren, um realistische Handelsszenarien nachzubilden, was die Entwicklung und Bewertung robuster Strategien fördert.
  • Open-Source Python-Umgebung zum Trainieren von KI-Agenten für die kooperative Überwachung und Erkennung von Eindringlingen in gitterbasierten Szenarien.
    0
    0
    Was ist Multi-Agent Surveillance?
    Multi-Agent Surveillance bietet einen flexiblen Simulationsrahmen, in dem mehrere KI-Agenten als Räuber oder Verfolger in einer diskreten Gitterwelt agieren. Benutzer können Umgebungsparameter wie Gitterabmessungen, Anzahl der Agenten, Erkennungsradien und Belohnungsstrukturen konfigurieren. Das Repository umfasst Python-Klassen für das Verhalten der Agenten, Szenarien-Generierungsskripte, integrierte Visualisierung mittels matplotlib und nahtlose Integration mit beliebten Verstärkungslernen-Bibliotheken. Dies erleichtert die Benchmarking von Multi-Agenten-Koordination, die Entwicklung maßgeschneiderter Überwachungsstrategien und die Durchführung reproduzierbarer Experimente.
  • Implementiert dezentrales Multi-Agent-DDPG-Verstärkungslernen mit PyTorch und Unity ML-Agents für kollaboratives Agententraining.
    0
    0
    Was ist Multi-Agent DDPG with PyTorch & Unity ML-Agents?
    Dieses Open-Source-Projekt liefert ein vollständiges Multi-Agent-Verstärkungslernen-Framework, das auf PyTorch und Unity ML-Agents basiert. Es bietet dezentrale DDPG-Algorithmen, Umgebungs-Wrapper und Trainingsskripte. Nutzer können Agentenrichtlinien, Kritiker-Netzwerke, Replay-Puffer und parallele Trainings-Worker konfigurieren. Log-Hooks ermöglichen die Überwachung mit TensorBoard, während modulare Code-Strukturen benutzerdefinierte Belohnungsfunktionen und Umgebungsparameter unterstützen. Das Repository umfasst Beispiel-Szenen in Unity, die kollaborative Navigationsaufgaben demonstrieren, und ist damit ideal, um Multi-Agent-Szenarien in Simulationen zu erweitern und zu benchmarking.
  • Ein Open-Source-Verstärkungslernagent, der PPO verwendet, um StarCraft II über DeepMinds PySC2-Umgebung zu trainieren und zu spielen.
    0
    0
    Was ist StarCraft II Reinforcement Learning Agent?
    Dieses Repository bietet ein End-to-End-Verstärkungslernframework für die Forschung im StarCraft II Gameplay. Der Kernagent verwendet Proximal Policy Optimization (PPO), um Policies-Netzwerke zu erlernen, die Beobachtungsdaten aus der PySC2-Umgebung interpretieren und präzise Spielaktionen ausführen. Entwickler können neuronale Netzwerkschichten, Belohnungsformung und Trainingspläne konfigurieren, um die Leistung zu optimieren. Das System unterstützt Mehrprozessverarbeitung für effiziente Beispelsammlung, Protokollierungstools zur Überwachung der Trainingskurven und Evaluierungsskripte zum Testen trainierter Policies gegen skriptgesteuerte oder integrierte KI-Gegner. Der Code ist in Python geschrieben und nutzt TensorFlow für Modelldefinition und Optimierung. Nutzer können Komponenten wie maßgeschneiderte Belohnungsfunktionen, Zustandsvorverarbeitung oder Netzwerkarchitekturen erweitern, um spezifische Forschungsziele zu verfolgen.
Ausgewählt