

高評分обучение с подкреплением工具

探索使用者最推薦的обучение с подкреплением工具，以高效、穩定的解決方案提升您的工作品質。

обучение с подкреплением

Gym-Recsys
Gym-Recsys 提供可自訂的 OpenAI Gym 環境，用於擴展性訓練與評估強化學習推薦代理人

0


0
訪問AI
Gym-Recsys 是什麼？
Gym-Recsys 是一個工具箱，將推薦任務封裝成 OpenAI Gym 環境，使強化學習演算法能逐步與模擬的用戶-項目矩陣互動。它提供合成用戶行為產生器、支援載入流行資料集，並提供如 Precision@K 和 NDCG 等標準推薦評測指標。用戶可以自訂獎勵函數、用戶模型和項目池，用以實驗不同的 RL 基礎推薦策略，並具有可重現性。
Gym-Recsys 核心功能
flowRL
FlowRL AI 使使用增強學習來實現實時的基於指標的用戶界面個性化。

0


0
訪問AI
flowRL 是什麼？
FlowRL AI 是一個強大的平臺，利用增強學習提供實時的用戶界面個性化。通過根據個別用戶的需求和偏好量身定制用戶界面，FlowRL 驅動關鍵商業指標的顯著改善。該平臺旨在根據實時數據動態調整用戶界面元素，使企業能夠提供高度個性化的用戶體驗，增加參與度和轉換率。
flowRL 核心功能
flowRL 優缺點
flowRL 定價
GridWorldEnvs
一個與OpenAI Gym相容的可自訂格子世界環境合集，用於強化學習演算法的開發與測試。

0


0
訪問AI
GridWorldEnvs 是什麼？
GridWorldEnvs提供一個完整的格子世界環境套件，支援設計、測試與Benchmark多智能體系統。用戶可輕鬆配置格子尺寸、代理起始位置、目標位置、障礙物、獎勵結構與動作空間。內建範例模版包括經典格子導航、避障與合作任務，也允許用JSON或Python類別定義自訂場景。與OpenAI Gym API無縫整合，支援直接應用標準RL演算法。同時支援單一與多智能體實驗、記錄與視覺化工具，用於跟蹤代理績效。
GridWorldEnvs 核心功能
gym-fx
gym-fx 提供一個可自訂的 OpenAI Gym 環境，用於訓練和評估強化學習代理，以進行外匯交易策略。

0


0
訪問AI
gym-fx 是什麼？
gym-fx 是一個開源的 Python 函式庫，利用 OpenAI Gym 介面實作模擬外匯交易環境。它支援多貨幣對，整合歷史價格資料、技術指標，並提供完全可自訂的獎勵函數。藉由提供一個標準化的 API，gym-fx 簡化了為演算法交易進行基準測試和發展的流程。用戶可以配置市場滑點、交易成本以及觀察空間，以逼真模擬實盤交易情況，促進策略的開發與評估。
gym-fx 核心功能
gym-llm
gym-llm 提供類似 gym 的環境，供基準測試和訓練大型語言模型（LLM）代理，適用於對話式與決策任務。

0


0
訪問AI
gym-llm 是什麼？
gym-llm 擴展了 OpenAI Gym 生態系統，定義文本環境，讓 LLM 代理透過提示與動作互動。每個環境遵循 Gym 的步驟、重置與渲染慣例，輸出文本觀察並接受模型產生的回應作為動作。開發者可指定提示範例、獎勵計算與終止條件，打造複雜的決策與對話基準。整合流行的 RL 函式庫、日誌工具與可配置的評估指標，促進端到端的實驗。不論是評估 LLM 解謎、管理對話或導航結構化任務，gym-llm 提供標準化、可複現的研究與進階語言代理開發框架。
gym-llm 核心功能
gym-multigrid
一個基於Python的OpenAI Gym環境，提供可自定義的多房間網格世界，用於強化學習代理的導航和探索研究。

0


0
訪問AI
gym-multigrid 是什麼？
gym-multigrid提供一套可定製的網格世界環境，旨在用於強化學習中的多房間導航和探索任務。每個環境由相互連接的房間組成，內有物體、鑰匙、門和障礙物。用戶可以程式設計調整網格大小、房間配置和物體佈局。該庫支持全觀測或部分觀測模式，提供RGB或矩陣狀態表示。行動包括移動、物體交互和門的操作。將其作為Gym環境整合後，研究人員可以利用任何兼容Gym的代理，無縫訓練和評估用於鑰匙門拼圖、物體檢索和層次規劃等任務的演算法。gym-multigrid的模組化設計與最小依賴，使其成為新AI策略基準測試的理想選擇。
gym-multigrid 核心功能
HFO_DQN
HFO_DQN是一個強化學習框架，應用Deep Q-Network來訓練RoboCup半場進攻環境中的足球代理人。

0


0
訪問AI
HFO_DQN 是什麼？
HFO_DQN結合了Python和TensorFlow，提供用於訓練使用Deep Q-Network足球代理人的完整流程。用戶可以克隆存儲庫、安裝依賴項（包括HFO模擬器和Python庫），並在YAML文件中配置訓練參數。該框架實現了經驗重放、目標網路更新、ε-貪婪探索和針對半場進攻領域的獎勵塑造。它包含訓練代理人、性能記錄、評估比賽和結果繪圖的腳本。模塊化結構允許集成自定義神經網絡架構、替代強化學習算法和多智能體協調策略。輸出包括訓練模型、性能指標和行為視覺化，促進強化學習和多智能體系統研究。
HFO_DQN 核心功能
jason-RL
Jason-RL為Jason BDI代理器配備強化學習，透過獎勵經驗實現基於Q-learning和SARSA的自適應決策。

0


0
訪問AI
jason-RL 是什麼？
Jason-RL在Jason多代理框架中加入一層強化學習，使AgentSpeak BDI代理器可以通過獎勵反饋學習行動選擇策略。它實現了Q-learning和SARSA算法，支援配置學習參數（學習率、折扣因子、探索策略）並記錄訓練指標。通過在代理計劃中定義獎勵函數和運行模擬，開發者可以觀察代理隨時間改善決策，並適應變化的環境，而不需要手動編碼策略。
jason-RL 核心功能
MARFT
MARFT是一個開源的多代理強化學習(RL)微調工具包，用於協作AI工作流程和語言模型優化。

0


0
訪問AI
MARFT 是什麼？
MARFT是一個基於Python的LLM，支持可重複實驗和快速原型設計協作式AI系統。
MARFT 核心功能
MineLand
一個開源的受Minecraft啟發的強化學習平台，讓AI代理在可定製的3D沙盒環境中學習複雜任務。

0


0
訪問AI
MineLand 是什麼？
MineLand提供一個受到Minecraft啟發的彈性3D沙盒環境，用於訓練強化學習代理。它具有Gym相容的API，可與Stable Baselines、RLlib及自訂實作的RL庫無縫整合。用戶可存取資源收集、導航及建設挑戰等任務庫，每個任務皆可自訂難度與獎勵結構。即時渲染、多代理情境及無界面模式支援可擴展的訓練與基準測試。開發者可設計新地圖、定義自訂獎勵函數，以及加入感測器或控制元件。MineLand的開源程式碼促進重現研究、協作開發與在複雜虛擬世界中快速原型設計AI代理。
MineLand 核心功能
mini-AlphaStar
精簡版PyTorch實現AlphaStar，實現星海爭霸II的強化學習代理，自訂模組化網絡架構與自我對弈。

0


0
訪問AI
mini-AlphaStar 是什麼？
mini-AlphaStar透過提供一個易於存取的開源PyTorch框架，幫助解開複雜的AlphaStar架構。內含空間特徵編碼器用於螢幕和縮圖輸入，非空間特徵處理，LSTM記憶模組，以及用於動作選擇與狀態評估的獨立策略與價值網絡。利用模仿學習啟動，並透過自我對弈的強化學習進行微調，支援與pysc2相容的環境封裝器，TensorBoard日誌與可配置超參數。研究人員與學生能從人類遊戲中建立資料集，根據自訂情境訓練模型，評估代理表現，並可視化學習曲線。模組化的程式碼庫方便實驗不同網絡變體、訓練流程和多代理設定。設計用於教學與快速原型，不用於正式部署。
mini-AlphaStar 核心功能
Multi-Agent Inspection Simulation
一個基於Unity ML-Agents的多機器人合作檢查任務訓練環境，可在可定制的3D虛擬場景中進行。

0


0
訪問AI
Multi-Agent Inspection Simulation 是什麼？
多機器人檢查模擬提供一個完整框架，用於模擬並訓練多個自主代理，以在Unity 3D環境中協作完成檢查任務。它與Unity ML-Agents工具箱整合，提供可配置的場景、檢查目標、可調整的獎勵函數與代理行為參數。研究人員可以撰寫自定義環境，定義代理數量，並透過Python API設置訓練流程。此套件支援並行訓練、TensorBoard記錄，並支援包括射線投射、攝像頭影像及位置資料的觀察輸入。調整超參數與環境復雜度後，使用者可以在覆蓋範圍、效率及協調性等指標上基準測試強化學習演算法。開源碼促進擴充用於機器人原型、協作AI研究及多機器人系統的教育示範。
Multi-Agent Inspection Simulation 核心功能
Multi-Agent Surveillance
用於訓練AI代理進行合作監控和檢測入侵者的開源Python環境，適用於基於網格的場景。

0


0
訪問AI
Multi-Agent Surveillance 是什麼？
Multi-Agent Surveillance提供一個靈活的模擬框架，允許多個AI代理在離散網格世界中扮演捕食者或逃脫者角色。用戶可以配置環境參數，如網格尺寸、代理數量、檢測半徑和獎勵結構。該庫包含用於代理行為的Python類別、場景生成腳本、內建的matplotlib可視化工具，並與流行的強化學習庫無縫整合。使得基準多代理協調、開發定制監控策略和進行可重複性實驗變得容易。
Multi-Agent Surveillance 核心功能
Multi-Agent Drone Environment
一個開源的Python模擬環境，用於訓練合作性無人機群控制，採用多智能體強化學習。

0


0
訪問AI
Multi-Agent Drone Environment 是什麼？
多智能體無人機環境是基於OpenAI Gym與PyBullet建立的Python套件，提供可自訂的多智能體模擬。用戶可以定義多個具有運動與動力模型的無人機代理，探索隊形飛行、目標追蹤與障礙避讓等合作任務。此環境支持模組化任務配置、逼真碰撞偵測與感測器模擬，同時允許自定義獎勵與去中心化策略。開發者可整合自家強化學習演算法，評估在不同場景下的效能，並即時視覺化代理軌跡與度量。其開源設計鼓勵社群貢獻，適合用於研究、教學及高階多智能體控制原型開發。
Multi-Agent Drone Environment 核心功能
Multi-Agent Autonomous Waste Collection System
運用強化學習協調多個自主垃圾收集代理，以高效優化收集路線。

0


0
訪問AI
Multi-Agent Autonomous Waste Collection System 是什麼？
多智能體自主垃圾收集系統是一個以研究為導向的平台，採用多智能體增強學習來訓練個別垃圾收集機器人協作制定路線。代理學習避免冗餘覆蓋、縮短行駛距離，並對動態產生的垃圾模式做出反應。系統用Python構建，整合模擬環境來測試和微調策略，在投入現實部署前完善系統。用戶可以配置地圖佈局、垃圾投放點、代理感測器和獎勵結構，以根據特定都市區域或運營限制定制行為。
Multi-Agent Autonomous Waste Collection System 核心功能
Multi-Agent Visual Tracking
開放原始碼的多代理AI框架，用於影片中的協作物體追蹤，結合深度學習與強化決策。

0


0
訪問AI
Multi-Agent Visual Tracking 是什麼？
多代理視覺追蹤實現一個分散式追蹤系統，由互相通信的智能代理組成，以提升影片物件追蹤的準確性與韌性。代理執行卷積神經網路進行偵測、共享觀察以處理遮擋，並透過強化學習調整追蹤參數。相容於主要的影片資料集，支持訓練與即時推理。用戶可輕鬆整合於現有流程，並擴展代理行為以符合客製化應用。
Multi-Agent Visual Tracking 核心功能
MultiAgent-Systems-StarCraft2-PySC2-Raw
一個開源的多智能體強化學習框架，通過PySC2在星際爭霸II中實現原始層級的代理控制與協調。

0


0
訪問AI
MultiAgent-Systems-StarCraft2-PySC2-Raw 是什麼？
MultiAgent-Systems-StarCraft2-PySC2-Raw提供一整套工具組，用於在星際爭霸II中開發、訓練與評估多個AI代理。它暴露低層次控制單位移動、目標指向和技能，同時支持彈性的獎勵設計與場景配置。用戶可以輕鬆插入自定義神經網路架構、定義隊伍協調策略，並記錄指標。基於PySC2，支援並行訓練、檢查點與視覺化，非常適合推動合作與對抗多智能體強化學習的研究。
MultiAgent-Systems-StarCraft2-PySC2-Raw 核心功能
Multiagent_system
一個基於Python的多智能體增強學習框架，用於開發和模擬合作與競爭的AI智能體環境。

0


0
訪問AI
Multiagent_system 是什麼？
Multiagent_system提供了一套完整的工具包，用於構建和管理多智能體環境。用戶可以定義自訂模擬場景、指定智能體行為，並利用預先實現的算法如DQN、PPO和MADDPG。該框架支持同步和異步訓練，使智能體能同時或輪流互動。內建的通信模組促進智能體間的訊息傳遞，用於合作策略。通過YAML文件簡化實驗配置，結果自動記錄為CSV或TensorBoard格式。視覺化脚本幫助解釋智能體軌跡、獎勵演變和通信模式。Designed for research and production workflows, Multiagent_system seamlessly scales from single-machine prototypes to distributed training on GPU clusters.
Multiagent_system 核心功能
MultiAgentes
一個基於Python的多智能體模擬框架，可在可定制的環境中實現同時的智能體協作、競爭和訓練。

0


1
訪問AI
MultiAgentes 是什麼？
MultiAgentes採用模組化架構來定義環境和智能體，支持同步和異步的多智能體互動。它包含環境和智能體的基礎類別，預定義的合作和競爭任務方案，用於自定義獎勵函數的工具，以及通信和觀察分享的API。可視化工具允許實時監控智能體行為，同時記錄模組記錄性能指標供分析。該框架能與Gym兼容的強化學習庫無縫集成，讓使用者可以用現有演算法訓練智能體。MultiAgentes設計為可擴展性，允許開發者添加新的環境模板、智能體類型和通信協議，以適應多樣的研究與教育應用。
MultiAgentes 核心功能
MultiAgentPacman
開源框架，實現並評估在經典吃豆人遊戲環境中的多智能體AI策略。

0


0
訪問AI
MultiAgentPacman 是什麼？
MultiAgentPacman提供一個基於Python的遊戲環境，使用戶能夠在Pacman領域中實現、可視化和基準多個AI代理。它支持對抗搜索算法，如Minimax、Expectimax、α-β剪枝，以及用於強化學習或啟發式的方法的自定義代理。該框架包含簡潔的GUI、命令行控制和用於記錄比賽統計及比較性能的工具，支持競爭或合作場景。
MultiAgentPacman 核心功能



精選

高評分обучение с подкреплением工具

探索使用者最推薦的обучение с подкреплением工具，以高效、穩定的解決方案提升您的工作品質。

обучение с подкреплением

Gym-Recsys

flowRL

GridWorldEnvs

gym-fx

gym-llm

gym-multigrid

HFO_DQN

jason-RL

MARFT

MineLand

mini-AlphaStar

Multi-Agent Inspection Simulation

Multi-Agent Surveillance

Multi-Agent Drone Environment

Multi-Agent Autonomous Waste Collection System

Multi-Agent Visual Tracking

MultiAgent-Systems-StarCraft2-PySC2-Raw

Multiagent_system

MultiAgentes

MultiAgentPacman