快速上手的強化学習工具

強化学習

jason-RL
Jason-RL為Jason BDI代理器配備強化學習，透過獎勵經驗實現基於Q-learning和SARSA的自適應決策。

0


0
訪問AI
jason-RL 是什麼？
Jason-RL在Jason多代理框架中加入一層強化學習，使AgentSpeak BDI代理器可以通過獎勵反饋學習行動選擇策略。它實現了Q-learning和SARSA算法，支援配置學習參數（學習率、折扣因子、探索策略）並記錄訓練指標。通過在代理計劃中定義獎勵函數和運行模擬，開發者可以觀察代理隨時間改善決策，並適應變化的環境，而不需要手動編碼策略。
jason-RL 核心功能
MARFT
MARFT是一個開源的多代理強化學習(RL)微調工具包，用於協作AI工作流程和語言模型優化。

0


0
訪問AI
MARFT 是什麼？
MARFT是一個基於Python的LLM，支持可重複實驗和快速原型設計協作式AI系統。
MARFT 核心功能
MineLand
一個開源的受Minecraft啟發的強化學習平台，讓AI代理在可定製的3D沙盒環境中學習複雜任務。

0


0
訪問AI
MineLand 是什麼？
MineLand提供一個受到Minecraft啟發的彈性3D沙盒環境，用於訓練強化學習代理。它具有Gym相容的API，可與Stable Baselines、RLlib及自訂實作的RL庫無縫整合。用戶可存取資源收集、導航及建設挑戰等任務庫，每個任務皆可自訂難度與獎勵結構。即時渲染、多代理情境及無界面模式支援可擴展的訓練與基準測試。開發者可設計新地圖、定義自訂獎勵函數，以及加入感測器或控制元件。MineLand的開源程式碼促進重現研究、協作開發與在複雜虛擬世界中快速原型設計AI代理。
MineLand 核心功能
mini-AlphaStar
精簡版PyTorch實現AlphaStar，實現星海爭霸II的強化學習代理，自訂模組化網絡架構與自我對弈。

0


0
訪問AI
mini-AlphaStar 是什麼？
mini-AlphaStar透過提供一個易於存取的開源PyTorch框架，幫助解開複雜的AlphaStar架構。內含空間特徵編碼器用於螢幕和縮圖輸入，非空間特徵處理，LSTM記憶模組，以及用於動作選擇與狀態評估的獨立策略與價值網絡。利用模仿學習啟動，並透過自我對弈的強化學習進行微調，支援與pysc2相容的環境封裝器，TensorBoard日誌與可配置超參數。研究人員與學生能從人類遊戲中建立資料集，根據自訂情境訓練模型，評估代理表現，並可視化學習曲線。模組化的程式碼庫方便實驗不同網絡變體、訓練流程和多代理設定。設計用於教學與快速原型，不用於正式部署。
mini-AlphaStar 核心功能
Multi-Agent Inspection Simulation
一個基於Unity ML-Agents的多機器人合作檢查任務訓練環境，可在可定制的3D虛擬場景中進行。

0


0
訪問AI
Multi-Agent Inspection Simulation 是什麼？
多機器人檢查模擬提供一個完整框架，用於模擬並訓練多個自主代理，以在Unity 3D環境中協作完成檢查任務。它與Unity ML-Agents工具箱整合，提供可配置的場景、檢查目標、可調整的獎勵函數與代理行為參數。研究人員可以撰寫自定義環境，定義代理數量，並透過Python API設置訓練流程。此套件支援並行訓練、TensorBoard記錄，並支援包括射線投射、攝像頭影像及位置資料的觀察輸入。調整超參數與環境復雜度後，使用者可以在覆蓋範圍、效率及協調性等指標上基準測試強化學習演算法。開源碼促進擴充用於機器人原型、協作AI研究及多機器人系統的教育示範。
Multi-Agent Inspection Simulation 核心功能
Multi-Agent Surveillance
用於訓練AI代理進行合作監控和檢測入侵者的開源Python環境，適用於基於網格的場景。

0


0
訪問AI
Multi-Agent Surveillance 是什麼？
Multi-Agent Surveillance提供一個靈活的模擬框架，允許多個AI代理在離散網格世界中扮演捕食者或逃脫者角色。用戶可以配置環境參數，如網格尺寸、代理數量、檢測半徑和獎勵結構。該庫包含用於代理行為的Python類別、場景生成腳本、內建的matplotlib可視化工具，並與流行的強化學習庫無縫整合。使得基準多代理協調、開發定制監控策略和進行可重複性實驗變得容易。
Multi-Agent Surveillance 核心功能
Multi-Agent Drone Environment
一個開源的Python模擬環境，用於訓練合作性無人機群控制，採用多智能體強化學習。

0


0
訪問AI
Multi-Agent Drone Environment 是什麼？
多智能體無人機環境是基於OpenAI Gym與PyBullet建立的Python套件，提供可自訂的多智能體模擬。用戶可以定義多個具有運動與動力模型的無人機代理，探索隊形飛行、目標追蹤與障礙避讓等合作任務。此環境支持模組化任務配置、逼真碰撞偵測與感測器模擬，同時允許自定義獎勵與去中心化策略。開發者可整合自家強化學習演算法，評估在不同場景下的效能，並即時視覺化代理軌跡與度量。其開源設計鼓勵社群貢獻，適合用於研究、教學及高階多智能體控制原型開發。
Multi-Agent Drone Environment 核心功能
Multi-Agent Autonomous Waste Collection System
運用強化學習協調多個自主垃圾收集代理，以高效優化收集路線。

0


0
訪問AI
Multi-Agent Autonomous Waste Collection System 是什麼？
多智能體自主垃圾收集系統是一個以研究為導向的平台，採用多智能體增強學習來訓練個別垃圾收集機器人協作制定路線。代理學習避免冗餘覆蓋、縮短行駛距離，並對動態產生的垃圾模式做出反應。系統用Python構建，整合模擬環境來測試和微調策略，在投入現實部署前完善系統。用戶可以配置地圖佈局、垃圾投放點、代理感測器和獎勵結構，以根據特定都市區域或運營限制定制行為。
Multi-Agent Autonomous Waste Collection System 核心功能
Multi-Agent DDPG with PyTorch & Unity ML-Agents
使用PyTorch和Unity ML-Agents實現去中心化多智能體DDPG強化學習，用於協作智能體訓練。

0


0
訪問AI
Multi-Agent DDPG with PyTorch & Unity ML-Agents 是什麼？
該開源項目提供了建立在PyTorch和Unity ML-Agents之上的完整多智能體強化學習框架。包括去中心化的DDPG演算法、環境包裝器和訓練腳本。用戶可以配置代理策略、評論網絡、重放緩衝區和並行訓練工作者。日誌記錄鉤子支持TensorBoard監控，模組化代碼支持自訂獎勵函數和環境參數。存放庫包含示例Unity場景，演示協作導航任務，非常適合擴展和基準測試多智能體模擬場景。
Multi-Agent DDPG with PyTorch & Unity ML-Agents 核心功能
Multi-Agent Visual Tracking
開放原始碼的多代理AI框架，用於影片中的協作物體追蹤，結合深度學習與強化決策。

0


0
訪問AI
Multi-Agent Visual Tracking 是什麼？
多代理視覺追蹤實現一個分散式追蹤系統，由互相通信的智能代理組成，以提升影片物件追蹤的準確性與韌性。代理執行卷積神經網路進行偵測、共享觀察以處理遮擋，並透過強化學習調整追蹤參數。相容於主要的影片資料集，支持訓練與即時推理。用戶可輕鬆整合於現有流程，並擴展代理行為以符合客製化應用。
Multi-Agent Visual Tracking 核心功能
MultiAgent-Systems-StarCraft2-PySC2-Raw
一個開源的多智能體強化學習框架，通過PySC2在星際爭霸II中實現原始層級的代理控制與協調。

0


0
訪問AI
MultiAgent-Systems-StarCraft2-PySC2-Raw 是什麼？
MultiAgent-Systems-StarCraft2-PySC2-Raw提供一整套工具組，用於在星際爭霸II中開發、訓練與評估多個AI代理。它暴露低層次控制單位移動、目標指向和技能，同時支持彈性的獎勵設計與場景配置。用戶可以輕鬆插入自定義神經網路架構、定義隊伍協調策略，並記錄指標。基於PySC2，支援並行訓練、檢查點與視覺化，非常適合推動合作與對抗多智能體強化學習的研究。
MultiAgent-Systems-StarCraft2-PySC2-Raw 核心功能
Multiagent_system
一個基於Python的多智能體增強學習框架，用於開發和模擬合作與競爭的AI智能體環境。

0


0
訪問AI
Multiagent_system 是什麼？
Multiagent_system提供了一套完整的工具包，用於構建和管理多智能體環境。用戶可以定義自訂模擬場景、指定智能體行為，並利用預先實現的算法如DQN、PPO和MADDPG。該框架支持同步和異步訓練，使智能體能同時或輪流互動。內建的通信模組促進智能體間的訊息傳遞，用於合作策略。通過YAML文件簡化實驗配置，結果自動記錄為CSV或TensorBoard格式。視覺化脚本幫助解釋智能體軌跡、獎勵演變和通信模式。Designed for research and production workflows, Multiagent_system seamlessly scales from single-machine prototypes to distributed training on GPU clusters.
Multiagent_system 核心功能
MultiAgentes
一個基於Python的多智能體模擬框架，可在可定制的環境中實現同時的智能體協作、競爭和訓練。

0


0
訪問AI
MultiAgentes 是什麼？
MultiAgentes採用模組化架構來定義環境和智能體，支持同步和異步的多智能體互動。它包含環境和智能體的基礎類別，預定義的合作和競爭任務方案，用於自定義獎勵函數的工具，以及通信和觀察分享的API。可視化工具允許實時監控智能體行為，同時記錄模組記錄性能指標供分析。該框架能與Gym兼容的強化學習庫無縫集成，讓使用者可以用現有演算法訓練智能體。MultiAgentes設計為可擴展性，允許開發者添加新的環境模板、智能體類型和通信協議，以適應多樣的研究與教育應用。
MultiAgentes 核心功能
MultiAgentPacman
開源框架，實現並評估在經典吃豆人遊戲環境中的多智能體AI策略。

0


0
訪問AI
MultiAgentPacman 是什麼？
MultiAgentPacman提供一個基於Python的遊戲環境，使用戶能夠在Pacman領域中實現、可視化和基準多個AI代理。它支持對抗搜索算法，如Minimax、Expectimax、α-β剪枝，以及用於強化學習或啟發式的方法的自定義代理。該框架包含簡潔的GUI、命令行控制和用於記錄比賽統計及比較性能的工具，支持競爭或合作場景。
MultiAgentPacman 核心功能
MultiAgentSystems
一個開源的Python框架，可實現合作與競爭多智能體增強學習系統的設計、訓練與評估。

0


0
訪問AI
MultiAgentSystems 是什麼？
MultiAgentSystems旨在簡化建構與評估多智能體增強學習（MARL）應用的流程。平台包括最先進的算法實作，如MADDPG、QMIX、VDN，以及集中式訓練和去中心化執行。它具有模組化的環境包裝器，與OpenAI Gym相容，通信協議支持代理間交互，並提供記錄工具追蹤獎勵塑造、收斂率等指標。研究者可以自訂代理架構、調整超參數，並模擬合作導航、資源配置、對抗性遊戲等場景。配合PyTorch、GPU加速與TensorBoard整合，MultiAgentSystems加速合作與競爭多智能體領域的實驗與基準測試。
MultiAgentSystems 核心功能
NavGround Learning
一個用於在模擬環境中訓練無碰撞多機器人導航策略的增強學習框架。

0


0
訪問AI
NavGround Learning 是什麼？
NavGround Learning提供一套完整工具，用於開發與測試導航任務中的增強學習代理。支援多代理模擬、碰撞建模，以及可定制的感測器與執行器。使用者可選擇預設策略模板或實現自訂架構，並使用最先進的RL演算法進行訓練，還能視覺化性能指標。與OpenAI Gym和Stable Baselines3的整合，讓實驗管理更為便利，內建記錄與視覺化工具則助於深入分析代理行為與訓練動態。
NavGround Learning 核心功能
NavGround Learning 優缺點
OpenSpiel
OpenSpiel 提供一個環境和算法庫，用於強化學習和遊戲理論規劃的研究。

0


0
訪問AI
OpenSpiel 是什麼？
OpenSpiel 是一個研究框架，提供從簡單矩陣遊戲到複雜棋類遊戲（如國際象棋、圍棋和撲克）的廣泛環境，並實現各種強化學習和搜索算法（如值迭代、策略梯度方法、MCTS）。其模組化的 C++ 核心和 Python 綁定允許用戶插入自定義算法、定義新遊戲，並在標準基準上比較性能。設計具有擴展性，支持單一和多智能體設置，研究合作和競爭場景。研究人員利用 OpenSpiel 快速原型設計算法、大規模實驗和分享可重複的代碼。
OpenSpiel 核心功能
Pits and Orbs
Pits and Orbs 提供一個多代理格子世界環境，AI代理在此避免陷阱、收集寶珠，並在回合制場景中競爭。

0


0
訪問AI
Pits and Orbs 是什麼？
Pits and Orbs是一個用Python實作的開源強化學習環境，提供回合制多代理格子世界，在其中代理追求目標並面臨環境危險。每個代理必須在可調整的格子上導航，避免隨機放置的陷阱（會懲罰或終止回合），並收集寶珠來獲得正向獎勵。該環境支援競爭和合作模式，讓研究者探索多樣學習場景。簡單的API可無縫整合如Stable Baselines或RLlib等流行RL框架。目前主要特色包括可調格子尺寸、動態陷阱與寶珠分佈、可配置的獎勵結構，以及選擇性註解訓練數據追踪。
Pits and Orbs 核心功能
Poke-Env
一個讓用戶可以開發並訓練用於對戰寶可夢的AI代理的Python框架，利用強化學習技術。

0


0
訪問AI
Poke-Env 是什麼？
Poke-Env旨在透過提供完整的Python介面來簡化寶可夢Showdown對戰的AI代理建立與評估工作。它處理與Pokémon Showdown伺服器的通訊、解析遊戲狀態資料，並利用事件驅動架構管理每回合的行動。用戶可以擴展基本玩家類別以實作使用強化學習或啟發式演算法的自訂策略。此框架支援內建的對戰模擬、平行對戰以及詳細記錄行動、獎勵與結果，便於複現研究。藉由抽象底層網路與解析任務，Poke-Env讓AI研究人員與開發者專注於演算法設計、性能優化與策略比較。
Poke-Env 核心功能
pybrain.org
PyBrain：基於Python的模組化機器學習和神經網絡庫。

0


0
訪問AI
pybrain.org 是什麼？
PyBrain，即Python基於強化學習、人工智能和神經網絡庫的簡稱，是一個模組化的開源庫，專為機器學習任務設計。它支持構建神經網絡、強化學習及其他AI算法。憑藉其強大且易於使用的算法，PyBrain為開發者和研究人員提供了有價值的工具，以解決各種機器學習問題。該庫與其他Python庫平滑集成，適用於從簡單的監督學習到複雜的強化學習情境的任務。
pybrain.org 核心功能
pybrain.org 優缺點
pybrain.org 定價