

Die besten оптимизация политик-Lösungen für Sie

Finden Sie bewährte оптимизация политик-Tools, die sowohl für Anfänger als auch für Experten geeignet sind, und steigern Sie Ihre Produktivität.

оптимизация политик

jason-RL
Jason-RL rüstet Jason BDI-Agenten mit Reinforcement-Learning aus, was eine adaptive Entscheidungsfindung basierend auf Q-Learning und SARSA durch Belohnungserfahrung ermöglicht.

0


0
KI besuchen
Was ist jason-RL?
Jason-RL fügt dem Jason Multi-Agenten-Framework eine Verstärkendes Lernen-Schicht hinzu, die es AgentSpeak-BDI-Agenten ermöglicht, Aktions-Auswahl-Politiken durch Belohnungsfeedback zu erlernen. Es implementiert Q-Learning und SARSA, unterstützt die Konfiguration von Lernparametern (Lernrate, Diskontfaktor, Explorationsstrategie) und protokolliert Trainingsmetriken. Durch die Definition von Belohnungsfunktionen in Agentenplänen und das Ausführen von Simulationen können Entwickler beobachten, wie Agenten im Laufe der Zeit Entscheidungsfindung verbessern und sich an sich ändernde Umgebungen anpassen, ohne manuell Politiken zu codieren.
jason-RL Hauptfunktionen

Q-Learning-Integration

SARSA-Integration

Konfigurierbare Lernparameter

Unterstützung von Belohnungsfunktionen

Protokollierung von Trainingsmetriken
MAPF_G2RL
MAPF_G2RL ist ein Python-Framework, das Deep-Reinforcement-Learning-Agenten für effizientes Multi-Agenten-Pfadfinden auf Graphen trainiert.

0


0
KI besuchen
Was ist MAPF_G2RL?
MAPF_G2RL ist ein Open-Source-Forschungsframework, das Graphentheorie und Deep Reinforcement Learning verbindet, um das Multi-Agenten-Pfadfindungsproblem (MAPF) zu lösen. Es kodiert Knoten und Kanten in Vektor-Repräsentationen, definiert räumliche und kollisionsbewusste Belohnungsfunktionen und unterstützt verschiedene RL-Algorithmen wie DQN, PPO und A2C. Das Framework automatisiert die Szenarien-Erstellung durch die Generierung zufälliger Graphen oder den Import realer Karten und steuert Trainingsschleifen, die Politiken für mehrere Agenten gleichzeitig optimieren. Nach dem Lernen werden die Agenten in simulierten Umgebungen bewertet, um Pfadeffizienz, Make-span und Erfolgsraten zu messen. Das modulare Design ermöglicht es Forschern, Kernkomponenten zu erweitern, neue MARL-Techniken zu integrieren und mit klassischen Lösungsansätzen zu benchmarken.
MAPF_G2RL Hauptfunktionen



Ausgewählt

Die besten оптимизация политик-Lösungen für Sie

Finden Sie bewährte оптимизация политик-Tools, die sowohl für Anfänger als auch für Experten geeignet sind, und steigern Sie Ihre Produktivität.

оптимизация политик

jason-RL

MAPF_G2RL