最新技術の強化学習ツール

革新的な機能を備えた強化学習ツールを使って、プロジェクトをより効率的に管理しましょう。

強化学習

  • Jason-RLは、Jason BDIエージェントに強化学習を搭載し、報酬体験を通じてQ学習とSARSAに基づく適応的意思決定を可能にします。
    0
    0
    jason-RLとは?
    jason-RLは、Jasonのマルチエージェントフレームワークに強化学習層を追加し、AgentSpeak BDIエージェントが報酬フィードバックを通じて行動選択ポリシーを学習できるようにします。Q学習とSARSAのアルゴリズムを実装し、学習パラメータ(学習率、割引ファクター、探索戦略)の設定をサポートし、トレーニングの指標をログに記録します。エージェントの計画で報酬関数を定義し、シミュレーションを実行することで、開発者はエージェントが時間とともに意思決定を改善し、環境の変化に適応する様子を観察できます。
  • MARFTは、協調型AIワークフローと大規模言語モデル最適化のためのオープンソースのマルチエージェントRLファインチューニングツールキットです。
    0
    0
    MARFTとは?
    MARFTはPythonベースのLLMを対象とし、再現性のある実験と協調AIシステムの迅速なプロトタイピングを可能にします。
  • カスタマイズ可能な3Dサンドボックス環境でAIエージェントが複雑なタスクを学習できる、オープンソースのMinecraftにインスパイアされたRLプラットフォームです。
    0
    0
    MineLandとは?
    MineLandはMinecraftに触発された柔軟な3Dサンドボックス環境で、訓練用のRLエージェントに提供します。Gym互換のAPIにより、Stable Baselines、RLlib、カスタム実装とシームレスに連携できます。資源収集、ナビゲーション、建設チャレンジを含むタスクのライブラリにアクセスでき、それぞれの難易度と報酬構造を設定可能です。リアルタイムレンダリング、多エージェントシナリオ、およびヘッドレスモードにより、スケーラブルな訓練とベンチマークが可能です。開発者は新しいマップを設計し、カスタム報酬関数を定義し、追加センサーやコントロールをプラグインできます。MineLandのオープンソースコードベースは、再現性のある研究、協調開発、複雑な仮想世界でのAIエージェントの迅速なプロトタイピングを促進します。
  • AlphaStarの簡略化されたPyTorch実装で、モジュール式ネットワークアーキテクチャと自己対戦によるStarCraft II強化学習エージェントの訓練を可能にします。
    0
    0
    mini-AlphaStarとは?
    mini-AlphaStarは、StarCraft IIのAI開発のためのアクセスしやすくオープンソースのPyTorchフレームワークを提供し、複雑なAlphaStarアーキテクチャを解明します。画面とミニマップ入力用の空間特徴エンコーダ、非空間特徴処理、LSTMメモリモジュール、行動選択と状態評価のための別々の方針と価値ネットワークを備えています。模倣学習でブートストラッピングし、自己対戦による強化学習で微調整を行います。StarCraft IIと互換性のある環境ラッパー、TensorBoardによるロギング、設定可能なハイパーパラメータをサポート。研究者や学生は人間のプレイからデータセットを生成し、カスタムシナリオでモデルを訓練し、エージェントのパフォーマンスを評価し、学習曲線を可視化できます。モジュール式のコードベースにより、ネットワークのバリアント、訓練スケジュール、多エージェント設定を容易に実験できます。教育や試作を目的としており、本番運用には適していません。
  • Unity ML-Agents に基づく環境で、カスタマイズ可能な3D仮想シナリオで協調型多エージェント検査タスクを訓練します。
    0
    0
    Multi-Agent Inspection Simulationとは?
    マルチエージェント検査シミュレーションは、Unity 3D環境内で複数の自律エージェントを協力して検査タスクを実行するための包括的なフレームワークを提供します。これには、検査ターゲット、調整可能な報酬関数、エージェントの動作パラメータを備えたシーンとの連携機能が含まれます。研究者は、Python APIを利用してカスタム環境のスクリプト作成、エージェント数の定義、訓練カリキュラムの設定が可能です。さらに、並列訓練セッション、TensorBoardによるログ記録、レイキャスト、カメラ映像、位置情報を含むカスタマイズ可能な観測機能もサポートしています。ハイパーパラメータや環境の複雑さを調整することで、カバレッジ、効率性、協調性のメトリクス上で強化学習アルゴリズムのベンチマーキングが可能です。オープンソースのコードベースは、ロボット工学の試作、協調AIの研究、多エージェントシステムの教育デモンストレーションへの拡張を促進します。
  • 協調型AIエージェントをトレーニングするためのオープンソースのPython環境で、グリッドベースのシナリオに侵入者を監視・検知します。
    0
    0
    Multi-Agent Surveillanceとは?
    マルチエージェント監視は、離散グリッド内で捕食者または逃避者として行動する複数のAIエージェントのための柔軟なシミュレーションフレームワークを提供します。ユーザーは、グリッドの寸法、エージェント数、検知半径、報酬構造などの環境パラメータを設定できます。リポジトリには、エージェントの動作を制御するPythonクラス、シナリオ生成スクリプト、matplotlibによるビルトインビジュアリゼーション、主要な強化学習ライブラリとのシームレスな統合が含まれ、マルチエージェントの協調のベンチマーク作成やカスタム監視戦略の開発、再現性のある実験を容易に行えます。
  • 協力型ドローンスウォーム制御の訓練のためのオープンソースPythonシミュレーション環境です。
    0
    0
    Multi-Agent Drone Environmentとは?
    マルチエージェントドローン環境は、OpenAI GymとPyBullet上に構築されたUAVスウォーム用のカスタマイズ可能なマルチエージェントシミュレーションPythonパッケージです。複数のドローンエージェントを運動モデルと動的モデルで定義し、編隊飛行、ターゲット追尾、障害物回避などの協調タスクを探索します。環境はモジュール式のタスク設定、リアルな衝突検出、センサーエミュレーションをサポートし、カスタム報酬関数や分散方策も利用可能です。開発者は独自の強化学習アルゴリズムを統合し、さまざまなシナリオ下での性能評価とエージェントの軌跡やメトリックのリアルタイム視覚化も行えます。このオープンソース設計はコミュニティの貢献を奨励し、研究、教育、先進的なマルチエージェント制御のプロトタイピングに理想的です。
  • 強化学習を用いて複数の自律型廃棄物収集エージェントのルートを効率的に最適化するために調整します。
    0
    0
    Multi-Agent Autonomous Waste Collection Systemとは?
    マルチエージェント自律廃棄物収集システムは、個別の廃棄物収集ロボットが協力してルート計画を行えるよう訓練するための研究主導のプラットフォームです。エージェントは冗長なカバレッジを回避し、移動距離を最小化し、動的な廃棄物生成パターンに対応することを学習します。Pythonで構築され、ポリシーのテストと洗練のためのシミュレーション環境を統合しています。ユーザーは地図のレイアウト、廃棄物投棄ポイント、エージェントのセンサー、報酬構造を設定して、特定の都市エリアや運用制約に合わせた動作に調整できます。
  • PyTorchとUnity ML-Agentsを使用して協調エージェントの訓練のための分散型多エージェントDDPG強化学習を実装します。
    0
    0
    Multi-Agent DDPG with PyTorch & Unity ML-Agentsとは?
    このオープンソースプロジェクトは、PyTorchとUnity ML-Agentsを基盤とした完全な多エージェント強化学習フレームワークを提供します。分散型DDPGアルゴリズム、環境ラッパー、訓練スクリプトを含みます。ユーザーはエージェントのポリシー、批評ネットワーク、リプレイバッファー、並列訓練ワーカーを設定できます。ロギングフックによりTensorBoardでの監視が可能で、モジュラーコードはカスタム報酬関数や環境パラメータをサポートします。リポジトリには協力ナビゲーションタスクを示すサンプルUnityシーンが含まれ、シミュレーション内での多エージェントシナリオの拡張やベンチマークに最適です。
  • オープ-sourceなマルチエージェントAIフレームワークで、深層学習と強化意思決定を用いた映像の協調オブジェクト追跡を実現。
    0
    0
    Multi-Agent Visual Trackingとは?
    マルチエージェントビジュアルトラッキングは、正確性と堅牢性を向上させるために通信するインテリジェントエージェントからなる分散追跡システムを実装しています。エージェントは畳み込みニューラルネットワークで検出を行い、遮蔽物を処理するために観測を共有し、強化学習を通じて追跡パラメータを調整します。一般的な映像データセットと互換性があり、トレーニングとリアルタイム推論の両方をサポートします。既存のパイプラインに容易に統合でき、カスタムアプリケーション向けにエージェントの挙動を拡張可能です。
  • PySC2を使用したStarCraft IIにおける生レベルのエージェント制御と協調を可能にするオープンソースのマルチエージェント強化学習フレームワーク。
    0
    0
    MultiAgent-Systems-StarCraft2-PySC2-Rawとは?
    MultiAgent-Systems-StarCraft2-PySC2-Rawは、StarCraft IIで複数のAIエージェントを開発、訓練、評価するための完全なツールキットを提供します。ユニットの移動やターゲット指定、能力制御の低レベルコントロールを公開し、柔軟な報酬設計とシナリオ構成を可能にします。ユーザーはカスタムニューラルネットワークアーキテクチャを簡単に組み込み、チーム間の協調戦略を定義し、メトリクスを記録できます。PySC2上に構築されており、並列訓練、チェックポイント作成、可視化をサポートし、協調型・対抗型のマルチエージェント強化学習の研究を進めるのに理想的です。
  • 協力的および競争的なAIエージェント環境の開発とシミュレーションを可能にするPythonベースのマルチエージェント強化学習フレームワーク。
    0
    0
    Multiagent_systemとは?
    Multiagent_systemは、多エージェント環境の構築と管理のための包括的なツールキットを提供します。ユーザーはカスタムシミュレーションシナリオを定義し、エージェントの行動を指定し、DQN、PPO、MADDPGなどの事前実装されたアルゴリズムを利用できます。このフレームワークは同期式と非同期式の訓練をサポートし、エージェントは同時にまたは交代で相互作用します。組み込みの通信モジュールは、協力戦略のためのメッセージパッシングを促進します。YAMLファイルを通じて実験の構成が簡素化され、結果は自動的にCSVまたはTensorBoardに記録されます。視覚化スクリプトは、エージェントの軌跡、報酬の推移、通信パターンの解釈に役立ちます。研究と生産のワークフローに設計されており、Single-machineのプロトタイプからGPUクラスター上の分散トレーニングまでシームレスにスケールします。
  • カスタマイズ可能な環境で同時にエージェントの協力、競争、訓練を可能にするPythonベースのマルチエージェントシミュレーションフレームワークです。
    0
    1
    MultiAgentesとは?
    MultiAgentesは、環境とエージェントを定義するためのモジュラーアーキテクチャを提供し、同期および非同期のマルチエージェント間の相互作用をサポートします。環境とエージェントの基本クラス、協力および競争タスクの事前定義されたシナリオ、報酬関数のカスタマイズツール、エージェント間の通信と観察共有のAPIを含みます。ビジュアリゼーションツールはエージェントの行動をリアルタイムで監視可能にし、ロギングモジュールはパフォーマンスメトリクスの記録と分析を行います。このフレームワークはGym互換の強化学習ライブラリとシームレスに統合されており、既存のアルゴリズムを用いてエージェントの訓練が可能です。MultiAgentesは拡張性を念頭に設計されており、新しい環境テンプレート、エージェントタイプ、通信プロトコルを追加して多様な研究や教育用途に対応できます。
  • クラシックなPacmanゲーム環境でマルチエージェントAI戦略の実装と評価を可能にするオープンソースフレームワーク。
    0
    0
    MultiAgentPacmanとは?
    MultiAgentPacmanは、ユーザーがPacmanドメインで複数のAIエージェントを実装、可視化、ベンチマークできるPythonベースのゲーム環境を提供します。ミニマックス、イックスモックス、α-Beta剪定などの対戦探索アルゴリズムや、カスタム強化学習やヒューリスティックに基づくエージェントもサポートします。シンプルなGUI、コマンドラインコントロール、ゲーム統計のログ記録や競争・協力シナリオにおけるエージェント性能の比較ツールを含みます。
  • 協力型および競争型のマルチエージェント強化学習システムの設計、トレーニング、評価を可能にするオープンソースのPythonフレームワークです。
    0
    0
    MultiAgentSystemsとは?
    MultiAgentSystemsは、マルチエージェント強化学習(MARL)アプリケーションの構築と評価のプロセスを簡素化することを目的としています。このプラットフォームには、MADDPG、QMIX、VDNを含む最先端のアルゴリズムの実装や、集中訓練と分散実行を行う環境が含まれます。OpenAI Gymと互換性のあるモジュール式の環境ラッパー、エージェント間の通信プロトコル、報酬調整や収束率などの指標を追跡するロギングユーティリティを備えています。研究者は、エージェントアーキテクチャのカスタマイズ、ハイパーパラメータ調整、協力ナビゲーション、資源分配、敵対的ゲームなどのシミュレーションを行うことができます。PyTorch、GPUアクセラレーション、TensorBoardのサポートにより、協力と競争のマルチエージェントの分野での実験とベンチマークを加速させます。
  • シミュレート環境での衝突のないマルチロボットナビゲーションポリシーを訓練するための強化学習フレームワーク。
    0
    0
    NavGround Learningとは?
    NavGround Learningは、ナビゲーションタスクにおいて強化学習エージェントの開発とベンチマークを行うための総合ツールキットを提供します。マルチエージェントシミュレーション、衝突モデル化、カスタマイズ可能なセンサーとアクチュエータをサポートします。事前定義されたポリシーテンプレートから選択するか、カスタムアーキテクチャを実装して、最先端のRLアルゴリズムで訓練し、パフォーマンス指標を可視化できます。OpenAI GymやStable Baselines3との連携により、実験の管理が容易になり、内蔵されたロギングとビジュアライゼーションツールでエージェントの挙動や訓練のダイナミクスを詳細に分析できます。
  • OpenSpielは、強化学習とゲーム理論的計画の研究のための環境とアルゴリズムのライブラリを提供します。
    0
    0
    OpenSpielとは?
    OpenSpielは、シンプルな行列ゲームからチェス、囲碁、ポーカーなどの複雑なボードゲームまでの幅広い環境を提供し、価値反復法、方針勾配法、MCTSなどのさまざまな強化学習と探索アルゴリズムを実装しています。そのモジュール式のC++コアとPythonバインディングにより、ユーザーはカスタムアルゴリズムの導入や新しいゲームの定義、標準ベンチマーク間での性能比較が可能です。拡張性を念頭に設計されており、単一エージェントおよび多エージェントの設定をサポートし、協調と競争のシナリオの研究を可能にします。研究者はOpenSpielを活用してアルゴリズムを迅速に試作し、大規模な実験を行い、再現可能なコードを共有しています。
  • Pits and Orbsは、AIエージェントが落とし穴を避け、オーブを集めてターン制のシナリオで競う、多エージェントのグリッドワールド環境を提供します。
    0
    0
    Pits and Orbsとは?
    Pits and OrbsはPythonで実装されたオープンソースの強化学習環境で、ターン制のマルチエージェントグリッドワールドを提供します。エージェントは目標を追求し、危険な環境要素に直面します。各エージェントは設定可能なグリッド上をナビゲートし、ランダムに配置された落とし穴を避けてエピソードをペナルティ化または終了させ、ポジティブな報酬のためにオーブを収集します。この環境は競争モードと協力モードの両方をサポートし、研究者はさまざまな学習シナリオを探索できます。簡単なAPIはStable BaselinesやRLlibなどの人気RLライブラリにシームレスに統合可能です。主な特徴は、調整可能なグリッド寸法、ダイナミックな落とし穴とオーブの分布、設定可能な報酬構造、および訓練分析用のオプションログ記録です。
  • 強化学習を使用してポケモンバトルをプレイするAIエージェントの開発とトレーニングを可能にするPythonフレームワーク。
    0
    1
    Poke-Envとは?
    Poke-Envは、包括的なPythonインターフェースを提供することで、ポケモンShowdownのバトル用AIエージェントの作成と評価を合理化します。ポケモンShowdownサーバーとの通信、ゲーム状態データの解析、イベント駆動アーキテクチャを通じたターンごとの行動管理を行います。ユーザーは、リインフォースメントラーニングやヒューリスティックアルゴリズムを用いたカスタム戦略の実装のために、基本プレイヤークラスを拡張できます。システムは、バトルシミュレーション、並列マッチング、行動・報酬・結果の詳細なログ記録をサポートし、再現性のある研究を可能にします。低レベルのネットワーク通信およびパースタスクを抽象化することで、AI研究者や開発者はアルゴリズム設計、パフォーマンス調整、戦略の比較ベンチマークに集中できます。
  • PyBrain:機械学習および神経ネットワークのためのモジュラーのPythonベースのライブラリ。
    0
    0
    pybrain.orgとは?
    PyBrainは、Pythonベースの強化学習、人工知能、神経ネットワークライブラリの略称であり、機械学習タスクのために設計されたモジュラーのオープンソースライブラリです。神経ネットワークの構築、強化学習、その他のAIアルゴリズムをサポートしています。強力で使いやすいアルゴリズムを備えたPyBrainは、さまざまな機械学習の問題に取り組む開発者や研究者にとって貴重なツールを提供します。このライブラリは他のPythonライブラリともスムーズに統合されており、簡単な教師あり学習から複雑な強化学習シナリオに至るまでのタスクに適しています。
フィーチャー