AI 工具
AI 智能代理
MCP
排名
提交及廣告
登入
TW
TW
首頁
標籤
optimisation des politiques
專業optimisation des politiques工具
專為高效與穩定性設計的optimisation des politiques工具,是實現專業成果的不二選擇。
optimisation des politiques
MAPF_G2RL
MAPF_G2RL 是一個Python框架,用於訓練深度強化學習代理,以高效的多智能體路徑搜尋在圖上。
0
0
訪問AI
MAPF_G2RL 是什麼?
MAPF_G2RL 是一個開源研究框架,將圖論與深度強化學習結合起來,以解決多智能體路徑搜尋問題(MAPF)。它將節點和邊編碼為向量表示,定義空間和碰撞感知的獎勵函數,支援 DQN、PPO、A2C 等多種 RL 算法。框架通過生成隨機圖或導入現實世界地圖來自動創建場景,並管理訓練循環以同時優化多個代理的策略。訓練後,代理在模擬環境中進行評估,以測量路徑最優化、完成時間和成功率。其模組化設計使研究人員能擴展核心元件、整合新技術,並與傳統解算器做基準測試。
MAPF_G2RL 核心功能
圖編碼與預處理
可自訂的獎勵塑造模組
支援 DQN、PPO、A2C 等演算法
野外與真實地圖的場景產生器
多代理訓練與評估流程
性能日誌與視覺化工具
Mava
Mava是由InstaDeep推出的開源多智能體強化學習框架,提供模組化訓練和分散式支援。
0
0
訪問AI
Mava 是什麼?
Mava是一個基於JAX的開源函式庫,用於開發、訓練和評估多智能體增強學習系統。它提供協作型和競爭型算法如MAPPO和MADDPG的預建實作,以及支持單節點和分散式工作流程的可配置訓練循環。研究人員可以從PettingZoo導入環境或自定義環境,並利用Mava的模組化元件進行策略優化、重播緩衝管理與指標日誌。其靈活架構支持新算法、客製化觀察空間和獎勵結構的無縫整合。利用JAX的自動向量化和硬體加速能力,Mava確保高效的大規模實驗及各種多智能體場景下的可重複基準測試。
Mava 核心功能
精選