專業級custom reward functions解決方案

贊助商 VoxDeck - 引領視覺革命的AI簡報製作工具



VoxDeck - 引領視覺革命的AI簡報製作工具





AI 新聞

登入

custom reward functions

Gym-Recsys
Gym-Recsys 提供可自訂的 OpenAI Gym 環境，用於擴展性訓練與評估強化學習推薦代理人

0


0
訪問AI
Gym-Recsys 是什麼？
Gym-Recsys 是一個工具箱，將推薦任務封裝成 OpenAI Gym 環境，使強化學習演算法能逐步與模擬的用戶-項目矩陣互動。它提供合成用戶行為產生器、支援載入流行資料集，並提供如 Precision@K 和 NDCG 等標準推薦評測指標。用戶可以自訂獎勵函數、用戶模型和項目池，用以實驗不同的 RL 基礎推薦策略，並具有可重現性。
Gym-Recsys 核心功能
gym-fx
gym-fx 提供一個可自訂的 OpenAI Gym 環境，用於訓練和評估強化學習代理，以進行外匯交易策略。

0


0
訪問AI
gym-fx 是什麼？
gym-fx 是一個開源的 Python 函式庫，利用 OpenAI Gym 介面實作模擬外匯交易環境。它支援多貨幣對，整合歷史價格資料、技術指標，並提供完全可自訂的獎勵函數。藉由提供一個標準化的 API，gym-fx 簡化了為演算法交易進行基準測試和發展的流程。用戶可以配置市場滑點、交易成本以及觀察空間，以逼真模擬實盤交易情況，促進策略的開發與評估。
gym-fx 核心功能
MARFT
MARFT是一個開源的多代理強化學習(RL)微調工具包，用於協作AI工作流程和語言模型優化。

0


0
訪問AI
MARFT 是什麼？
MARFT是一個基於Python的LLM，支持可重複實驗和快速原型設計協作式AI系統。
MARFT 核心功能
Multi-Agent Surveillance
用於訓練AI代理進行合作監控和檢測入侵者的開源Python環境，適用於基於網格的場景。

0


0
訪問AI
Multi-Agent Surveillance 是什麼？
Multi-Agent Surveillance提供一個靈活的模擬框架，允許多個AI代理在離散網格世界中扮演捕食者或逃脫者角色。用戶可以配置環境參數，如網格尺寸、代理數量、檢測半徑和獎勵結構。該庫包含用於代理行為的Python類別、場景生成腳本、內建的matplotlib可視化工具，並與流行的強化學習庫無縫整合。使得基準多代理協調、開發定制監控策略和進行可重複性實驗變得容易。
Multi-Agent Surveillance 核心功能
Multi-Agent DDPG with PyTorch & Unity ML-Agents
使用PyTorch和Unity ML-Agents實現去中心化多智能體DDPG強化學習，用於協作智能體訓練。

0


0
訪問AI
Multi-Agent DDPG with PyTorch & Unity ML-Agents 是什麼？
該開源項目提供了建立在PyTorch和Unity ML-Agents之上的完整多智能體強化學習框架。包括去中心化的DDPG演算法、環境包裝器和訓練腳本。用戶可以配置代理策略、評論網絡、重放緩衝區和並行訓練工作者。日誌記錄鉤子支持TensorBoard監控，模組化代碼支持自訂獎勵函數和環境參數。存放庫包含示例Unity場景，演示協作導航任務，非常適合擴展和基準測試多智能體模擬場景。
Multi-Agent DDPG with PyTorch & Unity ML-Agents 核心功能
RL Shooter
RL Shooter 提供一個可自訂的基於 Doom 的強化學習環境，用於訓練 AI 代理在第一人稱射擊遊戲中導航與射擊目標。

0


0
訪問AI
RL Shooter 是什麼？
RL Shooter 是一個基於 Python 的框架，整合 ViZDoom 與 OpenAI Gym API，以建立一個彈性的 FPS 遊戲強化學習環境。使用者可自訂場景、地圖及獎勵結構，以進行導航、目標偵測和射擊任務的訓練。它支援可配置的觀察幀、行動空間與日誌功能，並支援流行的深度 RL 函式庫，例如 Stable Baselines 和 RLlib，以提供明確的性能追蹤及實驗可重複性。
RL Shooter 核心功能
Simple Playgrounds
一個輕量級的Python庫，用於創建可定製的2D網格環境，以訓練和測試增強學習代理人。

0


0
訪問AI
Simple Playgrounds 是什麼？
Simple Playgrounds提供一個模塊化的平台，用於建立交互式的2D網格環境，代理人在其中可以導航迷宮、與物件互動並完成任務。用戶可以通過簡單的YAML或Python腳本來定義環境佈局、物體行為和獎勵函數。內建的Pygame渲染器提供實時可視化，且基於步驟的API確保與Stable Baselines3等RL庫的無縫集成。支援多代理、多碰撞偵測及可自訂的物理參數，Simple Playgrounds讓原型設計、基準測試與教育演示算法變得更便利。
Simple Playgrounds 核心功能
StarCraft II Reinforcement Learning Agent
一個開源的增強學習代理，利用PPO在DeepMind的PySC2環境中訓練並玩星際爭霸II。

0


0
訪問AI
StarCraft II Reinforcement Learning Agent 是什麼？
此存儲庫提供一個完整的星際爭霸II遊戲研究增強學習框架。核心代理使用PPO來學習策略網絡，詮釋來自PySC2環境的觀察數據，並輸出精確的遊戲內動作。開發者可以配置神經網絡層、獎勵塑造與訓練計劃，以優化性能。系統支持多處理技術以高效收集樣本，並包含監控訓練曲線的日誌工具與測試已訓練策略的評估腳本（對完成或內建的AI對手）。程式碼以Python撰寫，利用TensorFlow進行模型定義與優化。用戶可以擴展自定義獎勵函數、狀態前處理或網路架構，以符合特定研究需求。
StarCraft II Reinforcement Learning Agent 核心功能



精選

custom reward functions

Gym-Recsys

gym-fx

MARFT

Multi-Agent Surveillance

Multi-Agent DDPG with PyTorch & Unity ML-Agents

RL Shooter

Simple Playgrounds

StarCraft II Reinforcement Learning Agent