Outils optimisation des politiques simples et intuitifs

Explorez des solutions optimisation des politiques conviviales, conçues pour simplifier vos projets et améliorer vos performances.

optimisation des politiques

  • MAPF_G2RL est un cadre Python entraînant des agents d'apprentissage par renforcement profond pour la recherche de chemin multi-agents efficace sur des graphes.
    0
    0
    Qu'est-ce que MAPF_G2RL ?
    MAPF_G2RL est un cadre de recherche open-source qui relie la théorie des graphes et l'apprentissage par renforcement profond pour résoudre le problème de recherche de chemin multi-agents (MAPF). Il encode les nœuds et les arêtes en représentations vectorielles, définit des fonctions de récompense spatiales et sensibles aux collisions, et supporte divers algorithmes RL tels que DQN, PPO et A2C. Le cadre automatise la création de scénarios en générant des graphes aléatoires ou en important des cartes du monde réel, et orchestre des boucles d'entraînement qui optimisent simultanément les politiques pour plusieurs agents. Après apprentissage, les agents sont évalués dans des environnements simulés pour mesurer l'optimalité des chemins, le temps de sortie et les taux de réussite. Sa conception modulaire permet aux chercheurs d'étendre ses composants, d'intégrer de nouvelles techniques MARL et de benchmarker contre des solveurs classiques.
    Fonctionnalités principales de MAPF_G2RL
    • Encodage et prétraitement du graphe
    • Modules de modulation des récompenses personnalisables
    • Support pour les algorithmes DQN, PPO, A2C
    • Générateur de scénarios pour cartes aléatoires et réelles
    • Pipelines d'entraînement et d'évaluation multi-agents
    • Outils de journalisation et de visualisation des performances
  • Mava est un cadre open-source d'apprentissage par renforcement multi-agent développé par InstaDeep, offrant une formation modulaire et un support distribué.
    0
    0
    Qu'est-ce que Mava ?
    Mava est une bibliothèque open-source basée sur JAX pour développer, entraîner et évaluer des systèmes d'apprentissage par renforcement multi-agent. Elle propose des implémentations préconstruites d'algorithmes coopératifs et compétitifs tels que MAPPO et MADDPG, ainsi que des boucles de formation configurables prenant en charge les flux de travail à nœud unique et distribués. Les chercheurs peuvent importer des environnements depuis PettingZoo ou définir leurs propres environnements, puis utiliser les composants modulaires de Mava pour l'optimisation de politique, la gestion du tampon de répétition et la journalisation des métriques. L'architecture flexible du cadre permet une intégration transparente de nouveaux algorithmes, espaces d'observation personnalisés et structures de récompense. En exploitant les capacités d'auto-vectorisation et d'accélération matérielle de JAX, Mava assure des expériences efficaces à grande échelle et un benchmarking reproductible dans divers scénarios multi-agent.
Vedettes