專業級強化學習演算法解決方案 | Creati.ai

贊助商 Flowith - Flowith 是一個基於畫布的代理型工作空間，提供免費的 🍌Nano Banana Pro 和其他高效模型...

Flowith - Flowith 是一個基於畫布的代理型工作空間，提供免費的 🍌Nano Banana Pro 和其他高效模型...



強化學習演算法

PommerLearn
提供PPO、DQN訓練及評估工具的RL框架，用於開發具競爭力的Pommerman遊戲代理人。

0


0
訪問AI
PommerLearn 是什麼？
PommerLearn使研究人員和開發者能在Pommerman遊戲環境中訓練多智能體RL機器人。它包含現成的流行演算法（PPO、DQN）實作、彈性的超參數配置文件、自動記錄和訓練指標可視化、模型檢查點和評估腳本。其模組化架構便於擴充新演算法、自訂環境及整合標準ML庫如PyTorch。
PommerLearn 核心功能

PPO演算法實作

DQN演算法實作

Pommerman環境包裝器

可配置超參數

記錄與TensorBoard整合

模型檢查點與保存

評估腳本
MultiAgent-ReinforcementLearning
開源的Python框架，實現用於合作和競爭環境的多智能體強化學習算法。

0


0
訪問AI
MultiAgent-ReinforcementLearning 是什麼？
此倉庫提供完整的多智能體強化學習算法套件，包括MADDPG、DDPG、PPO等，並整合標準基準如Multi-Agent Particle Environment與OpenAI Gym。具有可自訂的環境包裝器、可設定的訓練腳本、實時日誌記錄與性能評估指標。用戶可以輕鬆擴展算法、適應自訂任務，並在合作與對抗設定中比較策略，只需最少的設置。
MultiAgent-ReinforcementLearning 核心功能



精選