Эффективные custom reward functions решения

Используйте custom reward functions инструменты с высокой производительностью для успешной работы.

custom reward functions

  • Gym-Recsys предоставляет настраиваемые окружения OpenAI Gym для масштабируемого обучения и оценки агентов рекомендаций с использованием обучения с подкреплением
    0
    0
    Что такое Gym-Recsys?
    Gym-Recsys — это набор инструментов, который оборачивает задачи рекомендаций в окружения OpenAI Gym, позволяя алгоритмам обучения с подкреплением взаимодействовать с имитированными матрицами пользователь-объект шаг за шагом. Он обеспечивает синтетические генераторы поведения пользователя, поддерживает загрузку популярных наборов данных и поставляет стандартные метрики, такие как Precision@K и NDCG. Пользователи могут настраивать функции награды, модели пользователя и пул объектов для экспериментов с различными стратегиями рекомендаций на основе RL, с возможностью воспроизведения результатов.
  • gym-fx предоставляет настраиваемую среду OpenAI Gym для тренировки и оценки агентов обучения с подкреплением для стратегий торговли на Форекс.
    0
    0
    Что такое gym-fx?
    gym-fx — это библиотека с открытым исходным кодом на Python, реализующая имитированную среду торговли на Форекс с использованием интерфейса OpenAI Gym. Она поддерживает несколько валютных пар, интегрирует исторические ценовые данные, технические индикаторы и полностью настраиваемые функции награды. Предоставляя стандартизированный API, gym-fx упрощает проведение бенчмаркинга и разработки алгоритмов обучения с подкреплением для алгоритмической торговли. Пользователи могут настраивать проскальзывание на рынке, транзакционные издержки и пространства для наблюдений, чтобы максимально точно моделировать реальные торговые сценарии, что способствует разработке и оценке устойчивых стратегий.
  • MARFT — это открытый исходный код многопользовательский набор инструментов для тонкой настройки обучения с подкреплением нескольких агентов для совместных работ ИИ и оптимизации языковых моделей.
    0
    0
    Что такое MARFT?
    MARFT — это основанный на Python инструмент для больших языковых моделей (LLM), позволяющий воспроизводить эксперименты и быстро прототипировать системы совместного ИИ.
  • Открытая среда на Python для обучения кооперативных агентов ИИ для совместного наблюдения и обнаружения нарушителей в сценариях на основе решетки.
    0
    0
    Что такое Multi-Agent Surveillance?
    Multi-Agent Surveillance предлагает гибкую симуляционную среду, в которой несколько ИИ-агентов выступают в роли хищников или жертв в дискретном мире на сетке. Пользователи могут настраивать параметры окружения, такие как размеры сетки, количество агентов, радиусы обнаружения и структуры вознаграждения. В репозитории есть классы на Python для поведения агентов, скрипты генерации сценариев, встроенная визуализация с помощью matplotlib и бесшовная интеграция с популярными библиотеками обучения с подкреплением. Это облегчает создание эталонных тестов для координации нескольких агентов, разработку нестандартных стратегий наблюдения и проведение воспроизводимых экспериментов.
  • Реализует децентрализованное многопроagentное обучение с использованием DDPG с PyTorch и Unity ML-Agents для совместного обучения агентов.
    0
    0
    Что такое Multi-Agent DDPG with PyTorch & Unity ML-Agents?
    Этот проект с открытым исходным кодом представляет собой полный фреймворк обучения с подкреплением для нескольких агентов на базе PyTorch и Unity ML-Agents. Включает децентрализованные алгоритмы DDPG, обертки окружения и тренировочные скрипты. Пользователи могут настраивать политики агентов, критические сети, буферы повторных данных и параллельных рабочих. Встроены хуки для логирования и мониторинга с помощью TensorBoard, а модульная структура позволяет легко внедрять пользовательские функции награды и параметры окружения. В репозитории есть примерные сцены Unity с демонстрациями задач совместной навигации, что делает его идеально подходящим для расширения и бенчмаркинга сценариев с множеством агентов в симуляциях.
  • RL Shooter обеспечивает настраиваемую среду обучения с укрепленным обучением на базе Doom, которая позволяет обучать ИИ-агентов навигации и стрельбы по мишеням.
    0
    0
    Что такое RL Shooter?
    RL Shooter — это фреймворк на Python, который интегрирует ViZDoom с API OpenAI Gym для создания гибкой среды обучения с укрепленным обучением для игр FPS. Пользователи могут определять пользовательские сценарии, карты и структуры вознаграждений для обучения агентов навигации, обнаружения целей и стрельбы. Благодаря настраиваемым кадрам наблюдения, пространствам действий и системам логирования, он поддерживает популярные библиотеки глубокого обучения с укрепленным обучением, такие как Stable Baselines и RLlib, обеспечивая отслеживание производительности и воспроизводимость экспериментов.
  • Легкая библиотека Python для создания настраиваемых 2D-окружающих сред для обучения и тестирования агентов с усиленным обучением.
    0
    0
    Что такое Simple Playgrounds?
    Simple Playgrounds предоставляет модульную платформу для построения интерактивных 2D-окружающих сред, где агенты могут исследовать лабиринты, взаимодействовать с объектами и выполнять задачи. Пользователи определяют макеты окружения, поведение объектов и функции наград с помощью простых сценариев YAML или Python. Встроенный рендерер Pygame обеспечивает визуализацию в реальном времени, а API, основанный на шагах, гарантирует лёгкую интеграцию с библиотеками обучения с укреплением, такими как Stable Baselines3. Поддержка мультиагентных настроек, обнаружение столкновений и настраиваемые параметры физических моделей делают Simple Playgrounds удобной платформой для прототипирования, тестирования и образовательных демонстраций алгоритмов ИИ.
  • Открытый агент обучения с подкреплением, использующий PPO для обучения и игры в StarCraft II через среду PySC2 от DeepMind.
    0
    0
    Что такое StarCraft II Reinforcement Learning Agent?
    Данный репозиторий предоставляет полноценную рамочную платформу для исследований в области обучения с подкреплением в игре StarCraft II. Основной агент использует Proximal Policy Optimization (PPO) для обучения сетей политики, интерпретирующих данные наблюдений из среды PySC2 и выдающих точные действия в игре. Разработчики могут настраивать слои нейронных сетей, формирование вознаграждений и графики обучения для оптимизации производительности. Система поддерживает многопоточность для эффективного сбора образцов, утилиты логирования для мониторинга кривых обучения и скрипты оценки для тестирования обученных моделей против скриптованных или встроенных ИИ-оппонентов. Код написан на Python и использует TensorFlow для определения и оптимизации моделей. Пользователи могут расширять компоненты, такие как пользовательские функции вознаграждения, предварительная обработка состояния или архитектура сети, для достижения конкретных целей исследования.
Рекомендуемые