

Эффективные 自訂獎勵函數 решения

Используйте 自訂獎勵函數 инструменты с высокой производительностью для успешной работы.

自訂獎勵函數

StarCraft II Reinforcement Learning Agent
Открытый агент обучения с подкреплением, использующий PPO для обучения и игры в StarCraft II через среду PySC2 от DeepMind.

0


0
Посетить ИИ
Что такое StarCraft II Reinforcement Learning Agent?
Данный репозиторий предоставляет полноценную рамочную платформу для исследований в области обучения с подкреплением в игре StarCraft II. Основной агент использует Proximal Policy Optimization (PPO) для обучения сетей политики, интерпретирующих данные наблюдений из среды PySC2 и выдающих точные действия в игре. Разработчики могут настраивать слои нейронных сетей, формирование вознаграждений и графики обучения для оптимизации производительности. Система поддерживает многопоточность для эффективного сбора образцов, утилиты логирования для мониторинга кривых обучения и скрипты оценки для тестирования обученных моделей против скриптованных или встроенных ИИ-оппонентов. Код написан на Python и использует TensorFlow для определения и оптимизации моделей. Пользователи могут расширять компоненты, такие как пользовательские функции вознаграждения, предварительная обработка состояния или архитектура сети, для достижения конкретных целей исследования.
Основные функции StarCraft II Reinforcement Learning Agent

Обучение политики на базе PPO в среде SC2

Интеграция с PySC2 от DeepMind для обработки состояний и действий

Настраиваемые архитектуры нейронных сетей и вознаграждения

Поддержка многопроцессорной обработки для параллельного сбора образцов

Логирование и интеграция с TensorBoard

Скрипты для оценки и сравнения агентов
Gym-Recsys
Gym-Recsys предоставляет настраиваемые окружения OpenAI Gym для масштабируемого обучения и оценки агентов рекомендаций с использованием обучения с подкреплением

0


0
Посетить ИИ
Что такое Gym-Recsys?
Gym-Recsys — это набор инструментов, который оборачивает задачи рекомендаций в окружения OpenAI Gym, позволяя алгоритмам обучения с подкреплением взаимодействовать с имитированными матрицами пользователь-объект шаг за шагом. Он обеспечивает синтетические генераторы поведения пользователя, поддерживает загрузку популярных наборов данных и поставляет стандартные метрики, такие как Precision@K и NDCG. Пользователи могут настраивать функции награды, модели пользователя и пул объектов для экспериментов с различными стратегиями рекомендаций на основе RL, с возможностью воспроизведения результатов.
Основные функции Gym-Recsys



Рекомендуемые

Эффективные 自訂獎勵函數 решения

Используйте 自訂獎勵函數 инструменты с высокой производительностью для успешной работы.

自訂獎勵函數

StarCraft II Reinforcement Learning Agent

Gym-Recsys