Outils policy optimization simples et intuitifs

Explorez des solutions policy optimization conviviales, conçues pour simplifier vos projets et améliorer vos performances.

policy optimization

  • MAPF_G2RL est un cadre Python entraînant des agents d'apprentissage par renforcement profond pour la recherche de chemin multi-agents efficace sur des graphes.
    0
    0
    Qu'est-ce que MAPF_G2RL ?
    MAPF_G2RL est un cadre de recherche open-source qui relie la théorie des graphes et l'apprentissage par renforcement profond pour résoudre le problème de recherche de chemin multi-agents (MAPF). Il encode les nœuds et les arêtes en représentations vectorielles, définit des fonctions de récompense spatiales et sensibles aux collisions, et supporte divers algorithmes RL tels que DQN, PPO et A2C. Le cadre automatise la création de scénarios en générant des graphes aléatoires ou en important des cartes du monde réel, et orchestre des boucles d'entraînement qui optimisent simultanément les politiques pour plusieurs agents. Après apprentissage, les agents sont évalués dans des environnements simulés pour mesurer l'optimalité des chemins, le temps de sortie et les taux de réussite. Sa conception modulaire permet aux chercheurs d'étendre ses composants, d'intégrer de nouvelles techniques MARL et de benchmarker contre des solveurs classiques.
  • Mava est un cadre open-source d'apprentissage par renforcement multi-agent développé par InstaDeep, offrant une formation modulaire et un support distribué.
    0
    0
    Qu'est-ce que Mava ?
    Mava est une bibliothèque open-source basée sur JAX pour développer, entraîner et évaluer des systèmes d'apprentissage par renforcement multi-agent. Elle propose des implémentations préconstruites d'algorithmes coopératifs et compétitifs tels que MAPPO et MADDPG, ainsi que des boucles de formation configurables prenant en charge les flux de travail à nœud unique et distribués. Les chercheurs peuvent importer des environnements depuis PettingZoo ou définir leurs propres environnements, puis utiliser les composants modulaires de Mava pour l'optimisation de politique, la gestion du tampon de répétition et la journalisation des métriques. L'architecture flexible du cadre permet une intégration transparente de nouveaux algorithmes, espaces d'observation personnalisés et structures de récompense. En exploitant les capacités d'auto-vectorisation et d'accélération matérielle de JAX, Mava assure des expériences efficaces à grande échelle et un benchmarking reproductible dans divers scénarios multi-agent.
  • MAGAIL permet à plusieurs agents d'imiter des démonstrations d'experts via un entraînement antagoniste génératif, facilitant l'apprentissage de politiques multi-agents flexible.
    0
    0
    Qu'est-ce que MAGAIL ?
    MAGAIL implémente une extension multi-agent de l'apprentissage par imitation adversariale générative, permettant à des groupes d'agents d'apprendre des comportements coordonnés à partir de démonstrations d'experts. Construit en Python avec support pour PyTorch (ou variantes TensorFlow), MAGAIL se compose de modules de politiques (générateur) et de discriminateurs, entraînés en boucle antagoniste. Les agents génèrent des trajectoires dans des environnements tels que OpenAI Multi-Agent Particle Environment ou PettingZoo, que le discriminateur utilise pour évaluer leur authenticité par rapport aux données d'experts. Par des mises à jour itératives, les réseaux de politiques convergent vers des stratégies proches de celles des experts sans fonctions de récompense explicites. La conception modulaire de MAGAIL permet de personnaliser les architectures de réseau, l’ingestion de données d’experts, l’intégration avec l’environnement et les hyperparamètres d'entraînement. De plus, la journalisation intégrée et la visualisation avec TensorBoard facilitent la surveillance et l’analyse des progrès d'apprentissage multi-agent et des comparateurs de performance.
  • Jason-RL équipe les agents Jason BDI avec l'apprentissage par renforcement, permettant une prise de décision adaptative basée sur Q-learning et SARSA via l'expérience de récompense.
    0
    0
    Qu'est-ce que jason-RL ?
    Jason-RL ajoute une couche d'apprentissage par renforcement au cadre multi-agent Jason, permettant aux agents AgentSpeak BDI d'apprendre des politiques de sélection d'actions via le feedback de récompense. Elle met en œuvre les algorithmes Q-learning et SARSA, supporte la configuration des paramètres d'apprentissage (taux d'apprentissage, facteur d'actualisation, stratégie d'exploration) et enregistre les métriques d'entraînement. En définissant des fonctions de récompense dans les plans d'agents et en exécutant des simulations, les développeurs peuvent observer l'amélioration des prises de décision des agents au fil du temps, s'adaptant à des environnements changeants sans coder manuellement les politiques.
Vedettes