Outils 強化學習演算法 simples et intuitifs

Explorez des solutions 強化學習演算法 conviviales, conçues pour simplifier vos projets et améliorer vos performances.

強化學習演算法

  • Un cadre RL offrant des outils d'entraînement et d'évaluation PPO, DQN pour développer des agents compétitifs dans le jeu Pommerman.
    0
    0
    Qu'est-ce que PommerLearn ?
    PommerLearn permet aux chercheurs et aux développeurs d'entraîner des robots RL multi-agents dans l'environnement de jeu Pommerman. Il inclut des implémentations prêt-à-l'emploi d'algorithmes populaires (PPO, DQN), des fichiers de configuration flexibles pour les hyperparamètres, une journalisation automatique et une visualisation des métriques d'entraînement, un checkpointing de modèles et des scripts d'évaluation. Son architecture modulaire facilite l'extension avec de nouveaux algorithmes, la personnalisation des environnements et l'intégration avec des bibliothèques ML standard telles que PyTorch.
    Fonctionnalités principales de PommerLearn
    • Implémentation de l'algorithme PPO
    • Implémentation de l'algorithme DQN
    • Wrappers de l'environnement Pommerman
    • Hyperparamètres configurables
    • Intégration du journal et TensorBoard
    • Checkpointing et sauvegarde de modèles
    • Scripts d'évaluation
  • Cadre Python open-source implémentant des algorithmes d'apprentissage par renforcement multi-agent pour des environnements coopératifs et compétitifs.
    0
    0
    Qu'est-ce que MultiAgent-ReinforcementLearning ?
    Ce dépôt fournit une suite complète d'algorithmes d'apprentissage par renforcement multi-agent, comprenant MADDPG, DDPG, PPO et plus encore, intégrés avec des benchmarks standard tels que l'Environnement de Particules Multi-Agent et OpenAI Gym. Il comprend des wrappers d'environnements personnalisables, des scripts d'entraînement configurables, un enregistrement en temps réel et des métriques d'évaluation des performances. Les utilisateurs peuvent facilement étendre les algorithmes, les adapter à des tâches personnalisées et comparer les politiques dans des environnements coopératifs et adverses avec une configuration minimale.
Vedettes