Günstige reinforcement learning-Tools für jedes Budget

Gesponsert von FineVoice - Verwandle Text in Emotion — Klone, designe und erstelle ausdrucksstarke KI-Stimmen in Sekundenschnelle.



FineVoice - Verwandle Text in Emotion — Klone, designe und erstelle ausdrucksstarke KI-Stimmen in Sekundenschnelle.





KI-News

Anmelden

reinforcement learning

CryptoTrader Agents
Open-Source-Framework, das Verstärkendes Lernen basierende Krypto-Handelsagenten mit Backtesting, Live-Handelsintegration und Leistungsüberwachung anbietet.

0


0
KI besuchen
Was ist CryptoTrader Agents?
CryptoTrader Agents stellt ein umfassendes Werkzeugset bereit, um KI-gesteuerte Handelsstrategien in Kryptowährungsmärkten zu entwerfen, zu trainieren und zu implementieren. Es enthält eine modulare Umgebung für Datenaufnahme, Merkmalsengineering und benutzerdefinierte Belohnungsfunktionen. Nutzer können vorinstallierte Verstärkendes Lernen-Algorithmen nutzen oder eigene Modelle integrieren. Die Plattform bietet simuliertes Backtesting auf historischen Preisdaten, Risikomanagement-Kontrollen und detailliertes Metrik-Tracking. Bei Fertigstellung können Agenten Verbindungen zu Live-APIs der Börsen für automatische Ausführung herstellen. Basierend auf Python ist das Framework vollständig erweiterbar, um neue Taktiken zu prototypisieren, Parameter-Sweeps durchzuführen und die Leistung in Echtzeit zu überwachen.
CryptoTrader Agents Hauptfunktionen
Fast Reinforcement Learning
Ein leistungsstarkes Python-Framework, das schnelle, modulare Verstärkungslern-Algorithmen mit Unterstützung für multiple Umgebungen bietet.

0


0
KI besuchen
Was ist Fast Reinforcement Learning?
Fast Reinforcement Learning ist ein spezialisiertes Python-Framework, das die Entwicklung und Ausführung von Verstärkungslern-Agenten beschleunigen soll. Es bietet standardmäßig Unterstützung für beliebte Algorithmen wie PPO, A2C, DDPG und SAC, kombiniert mit hochdurchsatzfähiger Verwaltung vektorisierten Umgebungen. Nutzer können Policy-Netzwerke einfach konfigurieren, Trainingsschleifen anpassen und GPU-Beschleunigung für groß angelegte Experimente nutzen. Das modulare Design der Bibliothek sorgt für nahtlose Integration mit OpenAI Gym-Umgebungen, sodass Forscher und Praktiker Prototypen erstellen, Benchmarks durchführen und Agenten in verschiedenen Steuerungs-, Spiel- und Simulationsaufgaben einsetzen können.
Fast Reinforcement Learning Hauptfunktionen
Deepseek R1
DeepSeek R1 ist ein fortschrittliches Open-Source-KI-Modell, das sich auf das Schließen von Argumenten, Mathematik und Programmierung spezialisiert.

0


0
KI besuchen
Was ist Deepseek R1?
DeepSeek R1 stellt einen bedeutenden Durchbruch in der künstlichen Intelligenz dar und bietet erstklassige Leistung bei Denk-, Mathematik- und Codierungsaufgaben. Durch den Einsatz einer komplexen MoE (Mixture of Experts)-Architektur mit 37B aktivierten Parametern und 671B Gesamtparametern implementiert DeepSeek R1 fortschrittliche Verstärkungstechniken, um Spitzenergebnisse zu erzielen. Das Modell bietet eine robuste Leistung, darunter 97,3 % Genauigkeit beim MATH-500 und eine 96,3 % Perzentil-Rang in Codeforces. Seine Open-Source-Natur und kosteneffektiven Bereitstellungsoptionen machen es für eine Vielzahl von Anwendungen zugänglich.
Deepseek R1 Hauptfunktionen
Deepseek R1 Vor- und Nachteile
Deepseek R1 Preisgestaltung
Dino Reinforcement Learning
Python-basiertes RL-Framework, das Deep-Q-Learning implementiert, um einen KI-Agenten für das Offline-Dinosaurierspiel in Chrome zu trainieren.

0


0
KI besuchen
Was ist Dino Reinforcement Learning?
Dino Reinforcement Learning bietet ein umfassendes Werkzeugset zum Trainieren eines KI-Agenten, um das Chrome-Dinosaurierspiel durch reinforcement learning zu spielen. Durch die Integration mit einem headless Chrome-Exemplar über Selenium erfasst es Echtzeit-Spielbilder und verarbeitet sie zu Zustandsdarstellungen, die für Eingaben in tiefe Q-Netzwerke optimiert sind. Das Framework umfasst Module für Replay-Speicher, Epsilon-Greedy-Exploration, Convolutional Neural Network-Modelle und Trainingsschleifen mit anpassbaren Hyperparametern. Nutzer können den Trainingsfortschritt über Konsolenprotokolle überwachen und Checkpoints für die spätere Bewertung speichern. Nach dem Training kann der Agent eingesetzt werden, um Live-Spiele autonom zu spielen oder gegen verschiedene Modellarchitekturen getestet zu werden. Das modulare Design erlaubt einen einfachen Austausch der RL-Algorithmen, was es zu einer flexiblen Plattform für Experimente macht.
Dino Reinforcement Learning Hauptfunktionen
DQN-Deep-Q-Network-Atari-Breakout-TensorFlow
Open-Source TensorFlow-basierter Deep-Q-Network-Agent, der durch Erfahrungsreplay und Zielnetzwerke lernt, Atari Breakout zu spielen.

0


0
KI besuchen
Was ist DQN-Deep-Q-Network-Atari-Breakout-TensorFlow?
DQN-Deep-Q-Network-Atari-Breakout-TensorFlow bietet eine vollständige Implementierung des DQN-Algorithmus, speziell für die Atari Breakout-Umgebung. Es verwendet ein konvolutionales neuronales Netzwerk zur Approximation der Q-Werte, nutzt Erfahrungsreplay, um Korrelationen zwischen aufeinanderfolgenden Beobachtungen zu unterbrechen, und verwendet ein periodisch aktualisiertes Zielnetzwerk, um das Training zu stabilisieren. Der Agent folgt einer epsilon-greedy-Strategie zur Erkundung und kann von Grund auf mit rohem Pixelinput trainiert werden. Das Repository umfasst Konfigurationsdateien, Trainingsscripte zur Überwachung des Belohnungswachstums, Bewertungsskripte für das Testen trainierter Modelle und TensorBoard-Tools zur Visualisierung von Trainingsmetriken. Nutzer können Hyperparameter wie Lernrate, Replay-Puffergröße und Batch-Größe anpassen, um verschiedene Setups zu testen.
DQN-Deep-Q-Network-Atari-Breakout-TensorFlow Hauptfunktionen
Emergent Communication in Agents
Open-Source-PyTorch-Framework für Multi-Agenten-Systeme zur Erforschung und Analyse emergenter Kommunikationsprotokolle in kooperativen Verstärkungslernaufgaben.

0


0
KI besuchen
Was ist Emergent Communication in Agents?
Emergente Kommunikation in Agenten ist ein Open-Source-PyTorch-Framework, das Forschern ermöglicht zu untersuchen, wie Multi-Agenten-Systeme ihre eigenen Kommunikationsprotokolle entwickeln. Die Bibliothek bietet flexible Implementierungen kooperativer Verstärkungslernaufgaben, einschließlich Referenzspielen, Kombinationsspielen und Objekterkennungsaufgaben. Benutzer definieren Sprecher- und Zuhörer-Agentenarchitekturen, spezifizieren Eigenschaften der Nachrichtkanäle wie Wortschatzgröße und Sequenzlänge und wählen Trainingsstrategien wie Politikgradienten oder überwachtes Lernen. Das Framework umfasst End-to-End-Skripte für Experimentdurchführung, Analyse der Kommunikationseffizienz und Visualisierung emergenter Sprachen. Das modulare Design ermöglicht eine einfache Erweiterung mit neuen Spielumgebungen oder benutzerdefinierten Verlustfunktionen. Forscher können veröffentlichte Studien reproduzieren, neue Algorithmen benchmarken und die Kompositionalität sowie Semantik der Agentensprachen untersuchen.
Emergent Communication in Agents Hauptfunktionen
Gym-Recsys
Gym-Recsys bietet anpassbare OpenAI Gym-Umgebungen für skalierbares Training und Bewertung von Verstärkungslern-Empfehlungsagenten

0


0
KI besuchen
Was ist Gym-Recsys?
Gym-Recsys ist ein Werkzeugkasten, der Empfehlungaufgaben in OpenAI Gym-Umgebungen verpackt und Verstärkungslern-Algorithmen ermöglicht, Schritt für Schritt mit simulierten Benutzer-Objekt-Tabellen zu interagieren. Es bietet synthetische Benutzungsverhaltensgeneratoren, unterstützt das Laden beliebter Datensätze und liefert Standardempfehlungsmetriken wie Precision@K und NDCG. Benutzer können Belohnungsfunktionen, Benutzermodelle und Objektpools anpassen, um verschiedene RL-basierte Empfehlungstrategien reproduzierbar zu experimentieren.
Gym-Recsys Hauptfunktionen
flowRL
FlowRL AI ermöglicht eine Echtzeit-Personalisierung der Benutzeroberfläche auf Basis von Metriken unter Verwendung von Reinforcement Learning.

0


0
KI besuchen
Was ist flowRL?
FlowRL AI ist eine leistungsstarke Plattform, die eine Echtzeit-Personalisierung der Benutzeroberfläche mit Reinforcement Learning bereitstellt. Durch die Anpassung der Benutzeroberfläche an die individuellen Bedürfnisse und Präferenzen der Benutzer erzielt FlowRL erhebliche Verbesserungen der wichtigen Geschäftskennzahlen. Die Plattform ist darauf ausgelegt, UI-Elemente dynamisch basierend auf Live-Daten anzupassen und ermöglicht es Unternehmen, hochgradig personalisierte Benutzererfahrungen zu bieten, die das Engagement und die Konversionsraten erhöhen.
flowRL Hauptfunktionen
flowRL Vor- und Nachteile
flowRL Preisgestaltung
GridWorldEnvs
Eine Sammlung anpassbarer Grid-Welt-Umgebungen, die mit OpenAI Gym kompatibel sind, für die Entwicklung und das Testen von Verstärkungslern-Algorithmen.

0


0
KI besuchen
Was ist GridWorldEnvs?
GridWorldEnvs bietet eine umfassende Sammlung von Grid-Welt-Umgebungen, die das Design, Testen und Benchmarking von Verstärkungslern- und Mehragentensystemen unterstützen. Benutzer können leicht Gittergrößen, Startpositionen der Agenten, Zielorte, Hindernisse, Belohnungsstrukturen und Aktionsräume konfigurieren. Die Bibliothek enthält vorgefertigte Templates wie klassische Gitternavigation, Hindernisvermeidung und Kooperationsaufgaben, sowie die Möglichkeit, eigene Szenarien via JSON oder Python-Klassen zu gestalten. Die nahtlose Integration mit der OpenAI Gym-API ermöglicht die direkte Anwendung standardmäßiger RL-Algorithmen. Zudem unterstützt GridWorldEnvs einzelne sowie mehrere Agenten-Experimente, Logging und Visualisierungswerkzeuge zur Verfolgung der Agentenleistung.
GridWorldEnvs Hauptfunktionen
gym-fx
gym-fx bietet eine anpassbare OpenAI Gym-Umgebung zur Schulung und Bewertung von Verstärkungslernagenten für Forex-Handelsstrategien.

0


0
KI besuchen
Was ist gym-fx?
gym-fx ist eine Open-Source-Python-Bibliothek, die eine simulierte Forex-Handelsumgebung mit der OpenAI Gym-Schnittstelle implementiert. Sie bietet Unterstützung für mehrere Währungspaare, die Integration historischer Kursdaten, technische Indikatoren und vollständig anpassbare Belohnungsfunktionen. Durch eine standardisierte API vereinfacht gym-fx das Benchmarking und die Entwicklung von Reinforcement-Learning-Algorithmen für den algorithmischen Handel. Nutzer können Marktschlitzung, Transaktionskosten und Beobachtungsräume konfigurieren, um realistische Handelsszenarien nachzubilden, was die Entwicklung und Bewertung robuster Strategien fördert.
gym-fx Hauptfunktionen
gym-llm
gym-llm bietet Gym-ähnliche Umgebungen für Benchmarking und Training von LLM-Agenten in konversationalen und Entscheidungsaufgaben.

0


0
KI besuchen
Was ist gym-llm?
gym-llm erweitert das OpenAI Gym-Ökosystem für große Sprachmodelle, indem textbasierte Umgebungen definiert werden, bei denen LLM-Agenten durch Eingabeaufforderungen und Aktionen interagieren. Jede Umgebung folgt den Gym-Konventionen für Schritt, Zurücksetzen und Rendern, gibt Beobachtungen als Text aus und akzeptiert modellgenerierte Antworten als Aktionen. Entwickler können benutzerdefinierte Aufgaben erstellen, indem sie Vorlage-Templates, Belohnungsberechnungen und Abbruchbedingungen spezifizieren, was komplexe Entscheidungsfindung und konversationsbasierte Benchmarks ermöglicht. Die Integration mit beliebten RL-Bibliotheken, Protokollierungstools und konfigurierbaren Bewertungsmetriken erleichtert End-to-End-Experimente. Ob beim Beurteilen der Fähigkeit eines LLMs, Rätsel zu lösen, Dialoge zu verwalten oder strukturierte Aufgaben zu navigieren – gym-llm bietet einen standardisierten, reproduzierbaren Rahmen für die Forschung und Entwicklung fortschrittlicher Sprachagenten.
gym-llm Hauptfunktionen
gym-multigrid
Eine Python-basierte OpenAI Gym-Umgebung, die anpassbare Mehrzimmer-Gitterwelten für Forschungszwecke der Navigations- und Erkundungsagenten im Bereich des Reinforcement Learning bietet.

0


0
KI besuchen
Was ist gym-multigrid?
gym-multigrid stellt eine Reihe von anpassbaren Gitterwelten bereit, die für Mehrzimmer-Navigation und Erkundungsaufgaben im Reinforcement Learning entwickelt wurden. Jede Umgebung besteht aus verbundenen Räumen, die mit Objekten, Schlüsseln, Türen und Hindernissen gefüllt sind. Benutzer können die Gittergröße, Raumkonfigurationen und Objektplatzierungen programmatisch anpassen. Die Bibliothek unterstützt sowohl Voll- als auch Teilbeobachtungsmodi und bietet RGB- oder Matrizen-Zustandsdarstellungen. Aktionen umfassen Bewegung, Objekthandhabung und Türmanipulation. Durch die Integration als Gym-Umgebung können Forscher jeden Gym-kompatiblen Agent nutzen, um Algorithmen nahtlos auf Aufgaben wie Schlüssel-Tür-Puzzles, Objektsuche und hierarchische Planung zu trainieren und zu bewerten. Das modulare Design und minimale Abhängigkeiten von gym-multigrid machen es ideal für den Benchmarking neuer KI-Strategien.
gym-multigrid Hauptfunktionen
HFO_DQN
HFO_DQN ist ein Verstärkungslernframework, das Deep Q-Network verwendet, um Fußballagenten in der RoboCup Half Field Offense-Umgebung zu trainieren.

0


0
KI besuchen
Was ist HFO_DQN?
HFO_DQN kombiniert Python und TensorFlow, um eine vollständige Pipeline für das Training von Fußballagenten mithilfe von Deep Q-Networks bereitzustellen. Benutzer können das Repository klonen, Abhängigkeiten einschließlich des HFO-Simulators und Python-Bibliotheken installieren sowie Trainingsparameter in YAML-Dateien konfigurieren. Das Framework implementiert Erfahrungsspeicherung, Zielnetzwerk-Updates, epsilon-greedy Erkundung und Belohnungsformung, die speziell für die Half-Field-Offense-Domäne angepasst sind. Es verfügt über Skripte für das Training von Agenten, Leistungsprotokollierung, Evaluierungsspiele und Ergebnisvisualisierung. Modulare Code-Struktur ermöglicht die Integration eigener neuronaler Netzwerkarchitekturen, alternativer RL-Algorithmen und Multi-Agenten-Koordinationsstrategien. Die Ausgaben umfassen trainierte Modelle, Leistungsmetriken und Verhaltensvisualisierungen, die die Forschung im Bereich Reinforcement Learning und Multi-Agent-Systeme erleichtern.
HFO_DQN Hauptfunktionen
jason-RL
Jason-RL rüstet Jason BDI-Agenten mit Reinforcement-Learning aus, was eine adaptive Entscheidungsfindung basierend auf Q-Learning und SARSA durch Belohnungserfahrung ermöglicht.

0


0
KI besuchen
Was ist jason-RL?
Jason-RL fügt dem Jason Multi-Agenten-Framework eine Verstärkendes Lernen-Schicht hinzu, die es AgentSpeak-BDI-Agenten ermöglicht, Aktions-Auswahl-Politiken durch Belohnungsfeedback zu erlernen. Es implementiert Q-Learning und SARSA, unterstützt die Konfiguration von Lernparametern (Lernrate, Diskontfaktor, Explorationsstrategie) und protokolliert Trainingsmetriken. Durch die Definition von Belohnungsfunktionen in Agentenplänen und das Ausführen von Simulationen können Entwickler beobachten, wie Agenten im Laufe der Zeit Entscheidungsfindung verbessern und sich an sich ändernde Umgebungen anpassen, ohne manuell Politiken zu codieren.
jason-RL Hauptfunktionen
MARFT
MARFT ist ein Open-Source-Toolkit für Multi-Agenten-Reinforcement-Learning (RL) zur Feinabstimmung für kollaborative KI-Workflows und Optimierung von Sprachmodellen.

0


0
KI besuchen
Was ist MARFT?
MARFT ist ein in Python entwickeltes LLM, das reproduzierbare Experimente und schnelle Prototypentwicklung für kollaborative KI-Systeme ermöglicht.
MARFT Hauptfunktionen
MineLand
Eine Open-Source-Minecraft-inspirierte RL-Plattform, die KI-Agenten ermöglicht, komplexe Aufgaben in anpassbaren 3D-Sandbox-Umgebungen zu erlernen.

0


0
KI besuchen
Was ist MineLand?
MineLand stellt eine flexible 3D-Sandbox-Umgebung inspiriert von Minecraft bereit, um Verstärkungslern-Agenten zu trainieren. Es verfügt über Gym-kompatible APIs für nahtlose Integration mit bestehenden RL-Bibliotheken wie Stable Baselines, RLlib und eigenen Implementierungen. Nutzer erhalten Zugriff auf eine Bibliothek von Aufgaben, darunter Ressourcensammlung, Navigation und Konstruktionsherausforderungen, jede mit konfigurierbarer Schwierigkeit und Belohnungsstruktur. Echtzeit-Rendering, Multi-Agenten-Szenarien und Headless-Modi ermöglichen skalierbares Training und Benchmarking. Entwickler können neue Karten entwerfen, eigene Belohnungsfunktionen definieren und zusätzliche Sensoren oder Steuerungen integrieren. MineLand’s Open-Source-Codebasis fördert reproduzierbare Forschung, kollaborative Entwicklung und schnelles Prototyping von KI-Agenten in komplexen virtuellen Welten.
MineLand Hauptfunktionen
mini-AlphaStar
Vereinfachte PyTorch-Implementierung von AlphaStar, die das Training eines StarCraft II RL-Agenten mit modularer Netzwerkarchitektur und Selbstspiel ermöglicht.

0


0
KI besuchen
Was ist mini-AlphaStar?
mini-AlphaStar entmystifiziert die komplexe AlphaStar-Architektur durch die Bereitstellung eines zugänglichen, Open-Source-PyTorch-Frameworks für die StarCraft II KI-Entwicklung. Es verfügt über räumliche Feature-Encoder für Bildschirm- und Minimap-Inputs, nicht-raumbezogene Feature-Verarbeitung, LSTM-Speicher-Module sowie separate Policy- und Wert-Netzwerke für Aktionsauswahl und Zustandsbewertung. Durch Imitationslernen für den Start und Reinforcement Learning mit Selbstspiel zur Feinabstimmung unterstützt es Umgebungs-Wrapper, die mit pysc2 kompatibel sind, Logging via TensorBoard und konfigurierbare Hyperparameter. Forscher und Studenten können Datensätze aus menschlichem Gameplay erstellen, Modelle auf benutzerdefinierten Szenarien trainieren, die Agentenleistung bewerten und Lernkurven visualisieren. Die modulare Codebasis ermöglicht einfache Experimente mit Varianten von Netzwerken, Trainingsplänen und Multi-Agent-Setups. Konzipiert für Bildung und Prototyping, nicht für den Produktionseinsatz.
mini-AlphaStar Hauptfunktionen
Multi-Agent Inspection Simulation
Eine auf Unity ML-Agents basierende Umgebung zur Schulung kooperativer Multi-Agenten-Inspektionsaufgaben in anpassbaren 3D-virtuellen Szenarien.

0


0
KI besuchen
Was ist Multi-Agent Inspection Simulation?
Multi-Agent Inspection Simulation bietet ein umfassendes Framework zur Simulation und Schulung mehrerer autonomer Agenten, die Inspektionsaufgaben in Unity 3D-Umgebungen kooperativ ausführen. Es integriert sich mit dem Unity ML-Agents-Toolkit und bietet konfigurierbare Szenen mit Inspektionszielen, anpassbaren Belohnungsfunktionen und Agentenverhaltensparametern. Forscher können benutzerdefinierte Umgebungen skripten, die Anzahl der Agenten definieren und Trainingspläne über Python-APIs festlegen. Das Paket unterstützt parallele Trainingssitzungen, TensorBoard-Logging und anpassbare Beobachtungen, einschließlich Raycasts, Kamerafeeds und Positionsdaten. Durch Anpassung der Hyperparameter und der Komplexität der Umgebung können Benutzer Verstärkungslern-Algorithmen anhand von Abdeckung, Effizienz und Koordinationsmetriken benchmarken. Der Open-Source-Code fördert die Erweiterung für Robotik-Prototypen, kooperative KI-Forschung und Bildungsdemonstrationen im Bereich Multi-Agenten-Systeme.
Multi-Agent Inspection Simulation Hauptfunktionen
Multi-Agent Surveillance
Open-Source Python-Umgebung zum Trainieren von KI-Agenten für die kooperative Überwachung und Erkennung von Eindringlingen in gitterbasierten Szenarien.

0


0
KI besuchen
Was ist Multi-Agent Surveillance?
Multi-Agent Surveillance bietet einen flexiblen Simulationsrahmen, in dem mehrere KI-Agenten als Räuber oder Verfolger in einer diskreten Gitterwelt agieren. Benutzer können Umgebungsparameter wie Gitterabmessungen, Anzahl der Agenten, Erkennungsradien und Belohnungsstrukturen konfigurieren. Das Repository umfasst Python-Klassen für das Verhalten der Agenten, Szenarien-Generierungsskripte, integrierte Visualisierung mittels matplotlib und nahtlose Integration mit beliebten Verstärkungslernen-Bibliotheken. Dies erleichtert die Benchmarking von Multi-Agenten-Koordination, die Entwicklung maßgeschneiderter Überwachungsstrategien und die Durchführung reproduzierbarer Experimente.
Multi-Agent Surveillance Hauptfunktionen
Multi-Agent Drone Environment
Eine Open-Source-Python-Simulationsumgebung zur Schulung der kooperativen Drohnenschwarmkontrolle mit Multi-Agenten-Verstärkendem Lernen.

0


0
KI besuchen
Was ist Multi-Agent Drone Environment?
Multi-Agent-Drohnenumgebung ist ein Python-Paket, das eine anpassbare Multi-Agenten-Simulation für UAV-Schwärme bietet, basierend auf OpenAI Gym und PyBullet. Nutzer definieren mehrere Drohnenagenten mit kinematischen und dynamischen Modellen, um kooperative Aufgaben wie Formationsflug, Zielverfolgung und Hindernisvermeidung zu erforschen. Die Umgebung unterstützt modulare Aufgaben konfigurieren, realistische Kollisionsdetektion und Sensor-Emulation, während benutzerdefinierte Belohnungsfunktionen und dezentrale Policies ermöglicht werden. Entwickler können ihre eigenen Verstärkendem-Lernen-Algorithmen integrieren, die Leistung unter verschiedenen Szenarien bewerten und Agentenverläufe sowie Metriken in Echtzeit visualisieren. Das Open-Source-Design fördert Community-Beiträge und ist ideal für Forschung, Lehre und Prototyping fortschrittlicher Multi-Agenten-Steuerungslösungen.
Multi-Agent Drone Environment Hauptfunktionen



Ausgewählt

reinforcement learning

CryptoTrader Agents

Fast Reinforcement Learning

Deepseek R1

Dino Reinforcement Learning

DQN-Deep-Q-Network-Atari-Breakout-TensorFlow

Emergent Communication in Agents

Gym-Recsys

flowRL

GridWorldEnvs

gym-fx

gym-llm

gym-multigrid

HFO_DQN

jason-RL

MARFT

MineLand

mini-AlphaStar

Multi-Agent Inspection Simulation

Multi-Agent Surveillance

Multi-Agent Drone Environment