柔軟なобучение с подкреплениемソリューション

自由度の高いカスタマイズが可能なобучение с подкреплениемツールで、あなただけの効率的な作業環境を作りましょう。

обучение с подкреплением

  • Gym-Recsysは、スケーラブルな学習と評価のためのカスタマイズ可能なOpenAI Gym環境を提供し、強化学習推薦エージェントを実行します。
    0
    0
    Gym-Recsysとは?
    Gym-Recsysは、推奨タスクをOpenAI Gym環境にラップするツールボックスで、強化学習アルゴリズムがシミュレートされたユーザーアイテム行列とステップバイステップで対話できるようにします。合成ユーザ行動生成器を提供し、一般的なデータセットの読み込みをサポートし、Precision@KやNDCGなどの標準的な推奨指標を提供します。ユーザは報酬関数、ユーザモデル、アイテムプールをカスタマイズして、異なるRLベースの推奨戦略を再現性を持って実験できます。
  • FlowRL AIは強化学習を使用してリアルタイムで測定駆動のUIパーソナライズを可能にします。
    0
    0
    flowRLとは?
    FlowRL AIは強化学習を使用してリアルタイムでUIパーソナライズを提供する強力なプラットフォームです。FlowRLは、個々のユーザーのニーズと好みに応じてユーザーインターフェースを調整することで、重要なビジネスメトリクスの重要な改善を促進します。このプラットフォームは、リアルタイムデータに基づいてUI要素を動的に調整するように設計されており、企業がエンゲージメントと転換率を増加させる高度にパーソナライズされたユーザー体験を提供できるようにします。
  • 強化学習アルゴリズムの開発とテストに適した、OpenAI Gymと互換性のあるカスタマイズ可能なグリッドワールド環境のコレクション。
    0
    0
    GridWorldEnvsとは?
    GridWorldEnvsは、強化学習やマルチエージェントシステムの設計、テスト、ベンチマークに役立つ包括的なグリッドワールド環境のスイートを提供します。ユーザーは簡単にグリッドのサイズ、エージェントの開始位置、ゴールの位置、障害物、報酬構造、アクション空間を設定できます。クラシックなグリッドナビゲーション、障害物回避、協力タスクなどの既製のテンプレートも含まれており、JSONまたはPythonクラスを使ったカスタムシナリオの定義も可能です。OpenAI Gym APIとのシームレスな統合により、標準的なRLアルゴリズムを直接適用できます。さらに、GridWorldEnvsはシングルエージェントおよびマルチエージェントの実験、ログ記録、パフォーマンス追跡のための可視化ツールもサポートします。
  • gym-fxは、外国為替取引戦略の強化学習エージェントを訓練および評価するためのカスタマイズ可能なOpenAI Gym環境を提供します。
    0
    0
    gym-fxとは?
    gym-fxは、OpenAI Gymインターフェースを使用したシミュレートされた外国為替取引環境を実装したオープンソースのPythonライブラリです。複数の通貨ペアのサポート、歴史的価格フィードの統合、技術指標、および完全にカスタマイズ可能な報酬関数を提供します。標準化されたAPIを通じて、algorithmsのベンチマークや開発を容易にします。ユーザーは、市場のスリッページや取引コスト、観測空間を設定して、実取引に近いシナリオを模擬し、堅牢な戦略開発と評価を促進します。
  • gym-llmは、会話や意思決定タスクのためのベンチマークとLLMエージェントのトレーニングに使用されるGymスタイルの環境を提供します。
    0
    0
    gym-llmとは?
    gym-llmは、テキストベースの環境を定義することで、LLMエージェントがプロンプトとアクションを通じて相互作用できるようにし、OpenAI Gymエコシステムを拡張します。各環境はGymのステップ、リセット、レンダリングの規約に従い、観測はテキストとして出力され、モデル生成の応答はアクションとして受け入れられます。開発者は、プロンプトテンプレート、報酬計算、終了条件を指定することで、高度な意思決定や会話型のベンチマークを作成できます。人気のRLライブラリやロギングツール、評価指標との連携により、エンドツーエンドの実験を容易に行えます。パズル解決、対話管理、構造化されたタスクのナビゲーションなど、LLMの能力を評価するための標準化された再現性のあるフレームワークを提供します。
  • PythonをベースとしたOpenAI Gym環境で、強化学習エージェントのナビゲーションと探索研究のためにカスタマイズ可能な複数部屋のグリッドワールドを提供します。
    0
    0
    gym-multigridとは?
    gym-multigridは、複数部屋のナビゲーションと探索タスクのために設計されたカスタマイズ可能なグリッドワールド環境のセットを提供します。各環境は、オブジェクト、鍵、ドア、障害物で構成された連結された部屋で構成されます。ユーザーはプログラムでグリッドサイズ、部屋の構成、オブジェクトの配置を調整できます。ライブラリは完全および部分観測モードをサポートし、RGBまたはマトリクスの状態表現を提供します。アクションには移動、オブジェクトとのインタラクション、ドア操作が含まれます。Gym環境として統合することで、研究者は任意のGym互換エージェントを活用して、キーとドアのパズル、オブジェクトの取得、階層的計画といったタスクのトレーニングと評価をシームレスに行うことができます。gym-multigridはモジュラー設計と最小限の依存関係により、新しいAI戦略のベンチマークに最適です。
  • HFO_DQNは、Deep Q-Networkを適用してRoboCup Half Field Offense環境でサッカーエージェントを訓練する強化学習フレームワークです。
    0
    0
    HFO_DQNとは?
    HFO_DQNは、PythonとTensorFlowを組み合わせて、Deep Q-Networkを使用したサッカーエージェント訓練のための完全なパイプラインを提供します。ユーザーはリポジトリをクローンし、HFOシミュレータやPythonライブラリを含む依存関係をインストールし、YAMLファイルで訓練パラメータを設定できます。このフレームワークは、経験再生、ターゲットネットワークの更新、ε-greedy探索、ハーフフィールドオフェンス向けの報酬調整を実装しています。エージェント訓練、性能ログ記録、評価マッチ、結果のプロット用スクリプトを備えています。モジュール式のコード構造により、カスタムニューラルネットアーキテクチャ、代替RLアルゴリズム、マルチエージェントコーディネーションの統合が可能です。出力には訓練されたモデル、性能指標、挙動の可視化が含まれ、強化学習やマルチエージェントシステムの研究を促進します。
  • Jason-RLは、Jason BDIエージェントに強化学習を搭載し、報酬体験を通じてQ学習とSARSAに基づく適応的意思決定を可能にします。
    0
    0
    jason-RLとは?
    jason-RLは、Jasonのマルチエージェントフレームワークに強化学習層を追加し、AgentSpeak BDIエージェントが報酬フィードバックを通じて行動選択ポリシーを学習できるようにします。Q学習とSARSAのアルゴリズムを実装し、学習パラメータ(学習率、割引ファクター、探索戦略)の設定をサポートし、トレーニングの指標をログに記録します。エージェントの計画で報酬関数を定義し、シミュレーションを実行することで、開発者はエージェントが時間とともに意思決定を改善し、環境の変化に適応する様子を観察できます。
  • MARFTは、協調型AIワークフローと大規模言語モデル最適化のためのオープンソースのマルチエージェントRLファインチューニングツールキットです。
    0
    0
    MARFTとは?
    MARFTはPythonベースのLLMを対象とし、再現性のある実験と協調AIシステムの迅速なプロトタイピングを可能にします。
  • カスタマイズ可能な3Dサンドボックス環境でAIエージェントが複雑なタスクを学習できる、オープンソースのMinecraftにインスパイアされたRLプラットフォームです。
    0
    0
    MineLandとは?
    MineLandはMinecraftに触発された柔軟な3Dサンドボックス環境で、訓練用のRLエージェントに提供します。Gym互換のAPIにより、Stable Baselines、RLlib、カスタム実装とシームレスに連携できます。資源収集、ナビゲーション、建設チャレンジを含むタスクのライブラリにアクセスでき、それぞれの難易度と報酬構造を設定可能です。リアルタイムレンダリング、多エージェントシナリオ、およびヘッドレスモードにより、スケーラブルな訓練とベンチマークが可能です。開発者は新しいマップを設計し、カスタム報酬関数を定義し、追加センサーやコントロールをプラグインできます。MineLandのオープンソースコードベースは、再現性のある研究、協調開発、複雑な仮想世界でのAIエージェントの迅速なプロトタイピングを促進します。
  • AlphaStarの簡略化されたPyTorch実装で、モジュール式ネットワークアーキテクチャと自己対戦によるStarCraft II強化学習エージェントの訓練を可能にします。
    0
    0
    mini-AlphaStarとは?
    mini-AlphaStarは、StarCraft IIのAI開発のためのアクセスしやすくオープンソースのPyTorchフレームワークを提供し、複雑なAlphaStarアーキテクチャを解明します。画面とミニマップ入力用の空間特徴エンコーダ、非空間特徴処理、LSTMメモリモジュール、行動選択と状態評価のための別々の方針と価値ネットワークを備えています。模倣学習でブートストラッピングし、自己対戦による強化学習で微調整を行います。StarCraft IIと互換性のある環境ラッパー、TensorBoardによるロギング、設定可能なハイパーパラメータをサポート。研究者や学生は人間のプレイからデータセットを生成し、カスタムシナリオでモデルを訓練し、エージェントのパフォーマンスを評価し、学習曲線を可視化できます。モジュール式のコードベースにより、ネットワークのバリアント、訓練スケジュール、多エージェント設定を容易に実験できます。教育や試作を目的としており、本番運用には適していません。
  • Unity ML-Agents に基づく環境で、カスタマイズ可能な3D仮想シナリオで協調型多エージェント検査タスクを訓練します。
    0
    0
    Multi-Agent Inspection Simulationとは?
    マルチエージェント検査シミュレーションは、Unity 3D環境内で複数の自律エージェントを協力して検査タスクを実行するための包括的なフレームワークを提供します。これには、検査ターゲット、調整可能な報酬関数、エージェントの動作パラメータを備えたシーンとの連携機能が含まれます。研究者は、Python APIを利用してカスタム環境のスクリプト作成、エージェント数の定義、訓練カリキュラムの設定が可能です。さらに、並列訓練セッション、TensorBoardによるログ記録、レイキャスト、カメラ映像、位置情報を含むカスタマイズ可能な観測機能もサポートしています。ハイパーパラメータや環境の複雑さを調整することで、カバレッジ、効率性、協調性のメトリクス上で強化学習アルゴリズムのベンチマーキングが可能です。オープンソースのコードベースは、ロボット工学の試作、協調AIの研究、多エージェントシステムの教育デモンストレーションへの拡張を促進します。
  • 協調型AIエージェントをトレーニングするためのオープンソースのPython環境で、グリッドベースのシナリオに侵入者を監視・検知します。
    0
    0
    Multi-Agent Surveillanceとは?
    マルチエージェント監視は、離散グリッド内で捕食者または逃避者として行動する複数のAIエージェントのための柔軟なシミュレーションフレームワークを提供します。ユーザーは、グリッドの寸法、エージェント数、検知半径、報酬構造などの環境パラメータを設定できます。リポジトリには、エージェントの動作を制御するPythonクラス、シナリオ生成スクリプト、matplotlibによるビルトインビジュアリゼーション、主要な強化学習ライブラリとのシームレスな統合が含まれ、マルチエージェントの協調のベンチマーク作成やカスタム監視戦略の開発、再現性のある実験を容易に行えます。
  • 協力型ドローンスウォーム制御の訓練のためのオープンソースPythonシミュレーション環境です。
    0
    0
    Multi-Agent Drone Environmentとは?
    マルチエージェントドローン環境は、OpenAI GymとPyBullet上に構築されたUAVスウォーム用のカスタマイズ可能なマルチエージェントシミュレーションPythonパッケージです。複数のドローンエージェントを運動モデルと動的モデルで定義し、編隊飛行、ターゲット追尾、障害物回避などの協調タスクを探索します。環境はモジュール式のタスク設定、リアルな衝突検出、センサーエミュレーションをサポートし、カスタム報酬関数や分散方策も利用可能です。開発者は独自の強化学習アルゴリズムを統合し、さまざまなシナリオ下での性能評価とエージェントの軌跡やメトリックのリアルタイム視覚化も行えます。このオープンソース設計はコミュニティの貢献を奨励し、研究、教育、先進的なマルチエージェント制御のプロトタイピングに理想的です。
  • 強化学習を用いて複数の自律型廃棄物収集エージェントのルートを効率的に最適化するために調整します。
    0
    0
    Multi-Agent Autonomous Waste Collection Systemとは?
    マルチエージェント自律廃棄物収集システムは、個別の廃棄物収集ロボットが協力してルート計画を行えるよう訓練するための研究主導のプラットフォームです。エージェントは冗長なカバレッジを回避し、移動距離を最小化し、動的な廃棄物生成パターンに対応することを学習します。Pythonで構築され、ポリシーのテストと洗練のためのシミュレーション環境を統合しています。ユーザーは地図のレイアウト、廃棄物投棄ポイント、エージェントのセンサー、報酬構造を設定して、特定の都市エリアや運用制約に合わせた動作に調整できます。
  • オープ-sourceなマルチエージェントAIフレームワークで、深層学習と強化意思決定を用いた映像の協調オブジェクト追跡を実現。
    0
    0
    Multi-Agent Visual Trackingとは?
    マルチエージェントビジュアルトラッキングは、正確性と堅牢性を向上させるために通信するインテリジェントエージェントからなる分散追跡システムを実装しています。エージェントは畳み込みニューラルネットワークで検出を行い、遮蔽物を処理するために観測を共有し、強化学習を通じて追跡パラメータを調整します。一般的な映像データセットと互換性があり、トレーニングとリアルタイム推論の両方をサポートします。既存のパイプラインに容易に統合でき、カスタムアプリケーション向けにエージェントの挙動を拡張可能です。
  • PySC2を使用したStarCraft IIにおける生レベルのエージェント制御と協調を可能にするオープンソースのマルチエージェント強化学習フレームワーク。
    0
    0
    MultiAgent-Systems-StarCraft2-PySC2-Rawとは?
    MultiAgent-Systems-StarCraft2-PySC2-Rawは、StarCraft IIで複数のAIエージェントを開発、訓練、評価するための完全なツールキットを提供します。ユニットの移動やターゲット指定、能力制御の低レベルコントロールを公開し、柔軟な報酬設計とシナリオ構成を可能にします。ユーザーはカスタムニューラルネットワークアーキテクチャを簡単に組み込み、チーム間の協調戦略を定義し、メトリクスを記録できます。PySC2上に構築されており、並列訓練、チェックポイント作成、可視化をサポートし、協調型・対抗型のマルチエージェント強化学習の研究を進めるのに理想的です。
  • 協力的および競争的なAIエージェント環境の開発とシミュレーションを可能にするPythonベースのマルチエージェント強化学習フレームワーク。
    0
    0
    Multiagent_systemとは?
    Multiagent_systemは、多エージェント環境の構築と管理のための包括的なツールキットを提供します。ユーザーはカスタムシミュレーションシナリオを定義し、エージェントの行動を指定し、DQN、PPO、MADDPGなどの事前実装されたアルゴリズムを利用できます。このフレームワークは同期式と非同期式の訓練をサポートし、エージェントは同時にまたは交代で相互作用します。組み込みの通信モジュールは、協力戦略のためのメッセージパッシングを促進します。YAMLファイルを通じて実験の構成が簡素化され、結果は自動的にCSVまたはTensorBoardに記録されます。視覚化スクリプトは、エージェントの軌跡、報酬の推移、通信パターンの解釈に役立ちます。研究と生産のワークフローに設計されており、Single-machineのプロトタイプからGPUクラスター上の分散トレーニングまでシームレスにスケールします。
  • カスタマイズ可能な環境で同時にエージェントの協力、競争、訓練を可能にするPythonベースのマルチエージェントシミュレーションフレームワークです。
    0
    1
    MultiAgentesとは?
    MultiAgentesは、環境とエージェントを定義するためのモジュラーアーキテクチャを提供し、同期および非同期のマルチエージェント間の相互作用をサポートします。環境とエージェントの基本クラス、協力および競争タスクの事前定義されたシナリオ、報酬関数のカスタマイズツール、エージェント間の通信と観察共有のAPIを含みます。ビジュアリゼーションツールはエージェントの行動をリアルタイムで監視可能にし、ロギングモジュールはパフォーマンスメトリクスの記録と分析を行います。このフレームワークはGym互換の強化学習ライブラリとシームレスに統合されており、既存のアルゴリズムを用いてエージェントの訓練が可能です。MultiAgentesは拡張性を念頭に設計されており、新しい環境テンプレート、エージェントタイプ、通信プロトコルを追加して多様な研究や教育用途に対応できます。
  • クラシックなPacmanゲーム環境でマルチエージェントAI戦略の実装と評価を可能にするオープンソースフレームワーク。
    0
    0
    MultiAgentPacmanとは?
    MultiAgentPacmanは、ユーザーがPacmanドメインで複数のAIエージェントを実装、可視化、ベンチマークできるPythonベースのゲーム環境を提供します。ミニマックス、イックスモックス、α-Beta剪定などの対戦探索アルゴリズムや、カスタム強化学習やヒューリスティックに基づくエージェントもサポートします。シンプルなGUI、コマンドラインコントロール、ゲーム統計のログ記録や競争・協力シナリオにおけるエージェント性能の比較ツールを含みます。
フィーチャー