강화 학습

Simple Playgrounds
Легкая библиотека Python для создания настраиваемых 2D-окружающих сред для обучения и тестирования агентов с усиленным обучением.

0


0
Посетить ИИ
Что такое Simple Playgrounds?
Simple Playgrounds предоставляет модульную платформу для построения интерактивных 2D-окружающих сред, где агенты могут исследовать лабиринты, взаимодействовать с объектами и выполнять задачи. Пользователи определяют макеты окружения, поведение объектов и функции наград с помощью простых сценариев YAML или Python. Встроенный рендерер Pygame обеспечивает визуализацию в реальном времени, а API, основанный на шагах, гарантирует лёгкую интеграцию с библиотеками обучения с укреплением, такими как Stable Baselines3. Поддержка мультиагентных настроек, обнаружение столкновений и настраиваемые параметры физических моделей делают Simple Playgrounds удобной платформой для прототипирования, тестирования и образовательных демонстраций алгоритмов ИИ.
Основные функции Simple Playgrounds
RL-Agents
Открытая библиотека PyTorch, обеспечивающая модульные реализации агентов обучения с подкреплением, таких как DQN, PPO, SAC и другие.

0


0
Посетить ИИ
Что такое RL-Agents?
RL-Agents — это научный уровень фреймворка обучения с подкреплением, построенного на PyTorch, объединяющего популярные RL-алгоритмы из методов, основанных на ценности, политике и акторе-критике. Библиотека включает модульный API агентов, GPU-ускорение, бесшовную интеграцию с OpenAI Gym и встроенные инструменты логирования и визуализации. Пользователи могут настраивать гиперпараметры, адаптировать циклы обучения и тестировать производительность с помощью нескольких строк кода, что делает RL-Agents идеальным выбором для академических исследований, прототипирования и промышленного эксперимента.
Основные функции RL-Agents
RL Collision Avoidance
Рамочная система обучения с подкреплением, позволяющая автономным роботам ориентироваться и избегать столкновений в многоагентных средах.

0


0
Посетить ИИ
Что такое RL Collision Avoidance?
RL Collision Avoidance предоставляет полный конвейер для разработки, обучения и внедрения политик избегания столкновений для мульти-роботов. Предлагает набор сценариев симуляции, совместимых с Gym, где агенты учатся избегать столкновений с помощью алгоритмов обучения с подкреплением. Пользователи могут настраивать параметры окружения, использовать GPU для ускоренного обучения и экспортировать полученные политики. Фреймворк также интегрирован с ROS для тестирования в реальных условиях, поддерживает предварительно обученные модели для немедленной оценки и оснащен инструментами для визуализации траекторий агентов и метрик производительности.
Основные функции RL Collision Avoidance
dead-simple-self-learning
Простейшее самостоятельное обучение — это библиотека Python, предоставляющая простые API для создания, обучения и оценки агентов обучения с усилением.

0


0
Посетить ИИ
Что такое dead-simple-self-learning?
Простейшее самостоятельное обучение предлагает разработчикам очень простой способ создавать и обучать агентов обучения с усилением на Python. Фреймворк абстрагирует основные компоненты RL, такие как оболочки окружений, модули политик и буферы опыта в лаконичные интерфейсы. Пользователи могут быстро инициализировать окружения, определять пользовательские политики с помощью знакомых бэкендов PyTorch или TensorFlow, запускать обучающие циклы с встроенным логированием и сохранением контрольных точек. Библиотека поддерживает on-policy и off-policy алгоритмы, что позволяет гибко экспериментировать с Q-обучением, градиентами политики и методами актор-критик. Снижая объем шаблонного кода, простое самообучение позволяет специалистам, педагогам и исследователям быстро прототипировать алгоритмы, проверять гипотезы и визуализировать эффективность агентов с минимальной настройкой. Его модульная структура облегчает интеграцию с существующими ML-стеками и пользовательскими окружениями.
Основные функции dead-simple-self-learning
Плюсы и минусы dead-simple-self-learning
SoccerAgent
SoccerAgent использует многопроцессное обучение с подкреплением для обучения AI-игроков для реалистичных футбольных симуляций и оптимизации стратегии.

0


0
Посетить ИИ
Что такое SoccerAgent?
SoccerAgent — это специализированная система ИИ, разработанная для создания и обучения автономных футбольных агентов с использованием современных методов многопроцессного обучения с подкреплением (MARL). Она моделирует реалистичные футбольные матчи в 2D или 3D, предлагая инструменты для определения функций вознаграждения, настройки характеристик игроков и реализации стратегических тактик. Пользователи могут интегрировать популярные алгоритмы RL (такие как PPO, DDPG и MADDPG) через встроенные модули, отслеживать прогресс обучения через панели управления и визуализировать поведение агентов в реальном времени. Эта система поддерживает обучение сценариев для атаки, защиты и протоколов координации. Благодаря расширяемому коду и детальной документации SoccerAgent позволяет исследователям и разработчикам анализировать динамику команд и совершенствовать стратегии игры на базе ИИ для учебных и коммерческих проектов.
Основные функции SoccerAgent
Плюсы и минусы SoccerAgent
StarCraft II Reinforcement Learning Agent
Открытый агент обучения с подкреплением, использующий PPO для обучения и игры в StarCraft II через среду PySC2 от DeepMind.

0


0
Посетить ИИ
Что такое StarCraft II Reinforcement Learning Agent?
Данный репозиторий предоставляет полноценную рамочную платформу для исследований в области обучения с подкреплением в игре StarCraft II. Основной агент использует Proximal Policy Optimization (PPO) для обучения сетей политики, интерпретирующих данные наблюдений из среды PySC2 и выдающих точные действия в игре. Разработчики могут настраивать слои нейронных сетей, формирование вознаграждений и графики обучения для оптимизации производительности. Система поддерживает многопоточность для эффективного сбора образцов, утилиты логирования для мониторинга кривых обучения и скрипты оценки для тестирования обученных моделей против скриптованных или встроенных ИИ-оппонентов. Код написан на Python и использует TensorFlow для определения и оптимизации моделей. Пользователи могут расширять компоненты, такие как пользовательские функции вознаграждения, предварительная обработка состояния или архитектура сети, для достижения конкретных целей исследования.
Основные функции StarCraft II Reinforcement Learning Agent
TexasHoldemAgent
RL-базированный AI-агент, который учится оптимальным стратегиям ставок для эффективной игры в Heads-up limit Texas Hold'em poker.

0


0
Посетить ИИ
Что такое TexasHoldemAgent?
TexasHoldemAgent представляет собой модульную среду, основанную на Python, для обучения, оценки и развертывания AI-игрока в Heads-up limit Texas Hold’em. Она интегрирует собственный симуляционный движок с алгоритмами глубокого усиленного обучения, включая DQN, для итеративного улучшения политики. Основные функции включают кодирование состояния руки, определение пространства действий (чего folded, call, raise), формирование вознаграждения и оценку решений в реальном времени. Пользователи могут настраивать параметры обучения, использовать ускорение на CPU/GPU, отслеживать ход тренировки и загружать или сохранять обученные модели. Фреймворк поддерживает пакетное моделирование для тестирования стратегий, генерации метрик эффективности и визуализации коэффициента побед, что позволяет исследователям, разработчикам и любителям покера экспериментировать с AI-стратегиями игры.
Основные функции TexasHoldemAgent
Text-to-Reward
Text-to-Reward обучает универсальные модели вознаграждения на основе инструкций на естественном языке для эффективного направления агентов RL.

0


0
Посетить ИИ
Что такое Text-to-Reward?
Text-to-Reward предоставляет pipeline для обучения моделей вознаграждения, которые отображают текстовые описания задач или отзывы в скалярные значения вознаграждения для агентов RL. Используя архитектуры на базе трансформеров и тонкую настройку на собранных данных предпочтений человека, фреймворк автоматически учится интерпретировать инструкции на естественном языке как сигналы вознаграждения. Пользователи могут задавать произвольные задачи через текстовые подсказки, обучать модель и затем интегрировать полученную функцию вознаграждения в любой алгоритм RL. Такой подход устраняет необходимость ручного задания наград, повышает эффективность выборки и позволяет агентам следовать сложным многошаговым инструкциям в симулированных или реальных средах.
Основные функции Text-to-Reward
Плюсы и минусы Text-to-Reward
uAgents
uAgents предоставляет модульную платформу для создания децентрализованных автономных ИИ-агентов, способных к коммуникации, координации и обучению между равными.

0


0
Посетить ИИ
Что такое uAgents?
uAgents — это модульная JavaScript-библиотека, которая даёт возможность разработчикам создавать автономных, децентрализованных ИИ-агентов, способных обнаруживать пиров, обмениваться сообщениями, работать над задачами и адаптироваться с помощью обучения. Агенты общаются через протоколы gossip на базе libp2p, регистрируют возможности через on-chain реестры и договариваются о соглашениях уровня услуг с помощью смарт-контрактов. Основная библиотека управляет событиями жизненного цикла агента, маршрутизацией сообщений и расширяемыми поведениями, такими как обучение с подкреплением и распределение задач на основе рынка. С помощью настраиваемых плагинов uAgents может интегрироваться с блокчейном Fetch.ai, внешними API и оракулами, позволяя агентам выполнять реальные действия, получать данные и принимать решения в распределённых средах без централизованной координации.
Основные функции uAgents
Vanilla Agents
Vanilla Agents предоставляет готовые реализации DQN, PPO и A2C RL-агентов с настраиваемыми конвейерами обучения.

0


0
Посетить ИИ
Что такое Vanilla Agents?
Vanilla Agents — это лёгкий фреймворк на базе PyTorch, предоставляющий модульные и расширяемые реализации основных агентов обучения с подкреплением. Он поддерживает алгоритмы DQN, Double DQN, PPO и A2C, с подключаемыми обёртками окружений, совместимыми с OpenAI Gym. Пользователи могут настраивать гиперпараметры, регистрировать метрики обучения, сохранять контрольные точки и визуализировать кривые обучения. Код организован ясно, что делает его идеальным для прототипирования, образовательных целей и бенчмаркинга новых идей в RL.
Основные функции Vanilla Agents
VMAS
VMAS — это модульная система обучения с усилением для многопроцессорных агентов, позволяющая моделировать и обучать мультиагентные системы с использованием встроенных алгоритмов и аппаратного ускорения GPU.

0


0
Посетить ИИ
Что такое VMAS?
VMAS — полный набор инструментов для построения и обучения мультиагентных систем с помощью глубокого обучения с подкреплением. Он обеспечивает параллельное моделирование сотен экземпляров окружений на GPU, что позволяет собирать данные с высокой пропускной способностью и масштабировать обучение. VMAS включает реализации популярных алгоритмов MARL, таких как PPO, MADDPG, QMIX и COMA, и предлагает модульные интерфейсы для быстрой прототипизации политики и среды. Фреймворк позволяет организовать централизованное обучение с децентрализованным исполнением (CTDE), поддерживаемые настраиваемые наградные функции, пространства наблюдения и хуки обратных вызовов для ведения журналов и визуализации. Благодаря модульной архитектуре VMAS легко интегрируется с моделями PyTorch и внешними средами, что делает его идеальным для исследований в задачах сотрудничества, соревнований и смешанных мотиваций в робототехнике, управлении трафиком, распределении ресурсов и сценариях игровой AI.
Основные функции VMAS
YGO-Agent
Открытый агент RL для дуэлей Yu-Gi-Oh, предоставляющий моделирование среды, обучение политики и оптимизацию стратегии.

0


0
Посетить ИИ
Что такое YGO-Agent?
Фреймворк YGO-Agent позволяет исследователям и энтузиастам создавать ИИ-ботов, которые играют в Yu-Gi-Oh, используя обучение с подкреплением. Он оборачивает симулятор YGOPRO в совместимую с OpenAI Gym среду, определяя состояния, такие как рука, поле и показатели жизни, а также действия, включая призыв, активацию заклинаний/ловушек и атаки. Вознаграждения основаны на исходе победы/проигрыша, нанесённом уроне и ходе игры. Архитектура агента реализована на PyTorch с использованием DQN, с возможностью настройки кастомных сетевых архитектур, повторной обучения опыта и ε-жадной стратегии исследования. Модули логирования регистрируют кривые обучения, коэффициенты выигрыша и подробные логовые записи ходов для анализа. Рамочное решение модульное, что позволяет пользователям заменять или расширять компоненты, такие как функции награды или пространство действий.
Основные функции YGO-Agent
A-Mem
A-Mem предоставляет агентам ИИ модуль памяти, предлагающий episodическое, краткосрочное и долгосрочное хранение и извлечение памяти.

0


0
Посетить ИИ
Что такое A-Mem?
A-Mem разработан для беспрепятственной интеграции с фреймворками ИИ на Python, предоставляя три различных модуля памяти: эпизодическую для контекста каждого эпизода, краткосрочную для действий, совершенных недавно, и долгосрочную для накопления знаний с течением времени. Разработчики могут настраивать емкость памяти, политики удержания и бекенды сериализации, такие как хранение в памяти или Redis. Библиотека включает эффективные алгоритмы индексирования для поиска релевантных воспоминаний по сходству и окнам контекста. Вставляя обработчики памяти A-Mem в цикл восприятия-действия агента, пользователи могут сохранять наблюдения, действия и результаты, а также выполнять запросы к прошлым опыту для влияния на текущие решения. Такая модульная конструкция поддерживает быструю экспериментальную работу в обучении с подкреплением, диалоговом ИИ, навигации роботов и других задач, требующих осведомленности о контексте и временного мышления.
Основные функции A-Mem
GYM_XPLANE_ML
Соединяет симулятор полетов X-Plane с OpenAI Gym для обучения агентов обучения с подкреплением для реалистичного управления самолетом через Python.

0


0
Посетить ИИ
Что такое GYM_XPLANE_ML?
GYM_XPLANE_ML оборачивает симулятор полетов X-Plane как среду OpenAI Gym, предоставляя управление газом, рулем высоты, элеронами и рулем направления как пространства действий, а такие параметры полета, как высота, скорость и ориентация, как наблюдения. Пользователи могут писать сценарии обучения на Python, выбирать предопределенные сценарии или настраивать контрольные точки, погодные условия и модели самолетов. Библиотека обеспечивает низколатентную связь с X-Plane, выполнение эпизодов в синхронном режиме, логирование метрик и поддержку рендеринга в реальном времени для отладки. Она способствует итеративной разработке автопилотов на базе ML и экспериментальных алгоритмов RL в фотореалистичной среде полетов.
Основные функции GYM_XPLANE_ML
Acme
Acme — это модульная система обучения с подкреплением, предлагающая повторно используемые компоненты агентов и эффективные распределённые обучающие пайплайны.

0


0
Посетить ИИ
Что такое Acme?
Acme — это фреймворк на базе Python, упрощающий разработку и оценку агентов обучения с подкреплением. Он включает коллекцию заранее созданных реализаций агентов (например, DQN, PPO, SAC), оболочки для среды, буферы повтора и движки для распределённого выполнения. Исследователи могут комбинировать компоненты для прототипирования новых алгоритмов, контролировать метрики обучения с помощью встроенного логирования и использовать масштабируемые распределённые пайплайны для масштабных экспериментов. Acme интегрируется с TensorFlow и JAX, поддерживает пользовательские среды через интерфейсы OpenAI Gym и включает утилиты для создания контрольных точек, оценки и настройки гиперпараметров.
Основные функции Acme
AI-Agentic Machine Translation
Рамочная структура AI-агентов, управляющая несколькими агентами перевода для совместного создания, уточнения и оценки машинных переводов.

0


0
Посетить ИИ
Что такое AI-Agentic Machine Translation?
AI-агентный машинный перевод — это открытая платформа для исследований и разработки в области машинного перевода. Она управляет тремя основными агентами — генератором, оценщиком и уточнителем — для совместного производства, оценки и совершенствования переводов. Построена на базе PyTorch и моделей трансформеров, поддерживая предварительное обучение с учителем, оптимизацию с помощью обучения с подкреплением и настраиваемые политики агентов. Пользователи могут проводить бенчмаркинг на стандартных наборах данных, отслеживать BLEU-рейтинги и расширять пайплайн с помощью пользовательских агентов или функций вознаграждения для исследования коллаборации агентов в задачах перевода.
Основные функции AI-Agentic Machine Translation
AI Hedge Fund 5zu
AI Hedge Fund 5zu использует усиленное обучение для автоматизации управления портфелем и оптимизации торговых стратегий.

0


0
Посетить ИИ
Что такое AI Hedge Fund 5zu?
AI Hedge Fund 5zu обеспечивает полноценную цепочку обработки для количественной торговли: настраиваемая среда для моделирования нескольких классов активов, модули агентов на базе усиленного обучения, утилиты для бэктестинга, интеграция рыночных данных в реальном времени и инструменты управления рисками. Пользователи могут настраивать источники данных, определять функции награды, обучать агентов на исторических данных и оценивать показатели эффективности по ключевым финансовым метрикам. Фреймворк поддерживает модульную разработку стратегий и легко расширяется для работы с API брокеров в реальном времени для развертывания торговых ботов производственного уровня.
Основные функции AI Hedge Fund 5zu
AI Agents for Rock Paper Scissors
Открытый набор инструментов на Python, предлагающий агенты для распознавания шаблонов на основе правил, случайных стратегий и обучения с подкреплением для игры Камень-Ножницы-Бумага.

0


0
Посетить ИИ
Что такое AI Agents for Rock Paper Scissors?
AI-агенты для Камень-Ножницы-Бумага — это проект с открытым исходным кодом на Python, показывающий, как строить, обучать и оценивать различные стратегии AI — случайную игру, распознавание правил и обучение с подкреплением (Q-learning) — в классической игре. Он включает модульные классы агентов, настраиваемый механизм игры, логирование эффективности и утилиты визуализации. Пользователи легко могут менять агентов, регулировать параметры обучения и исследовать поведение ИИ в соревновательных сценариях.
Основные функции AI Agents for Rock Paper Scissors
Ant_racer
Ant_racer — это виртуальная платформа для многоагентного погони и уклонения с использованием OpenAI/Gym и Mujoco.

0


0
Посетить ИИ
Что такое Ant_racer?
Ant_racer — это виртуальная платформа для многоагентного погони и уклонения, предоставляющая игровую среду для изучения многоагентного обучения с подкреплением. Построена на основе OpenAI Gym и Mujoco, позволяет пользователям моделировать взаимодействия между несколькими автономными агентами в задачах погони и уклонения. Платформа поддерживает реализацию и тестирование алгоритмов обучения с подкреплением, таких как DDPG, в физически реалистичной среде. Полезна для исследователей и разработчиков, интересующихся поведением ИИ многопользовательских систем в динамических сценариях.
Основные функции Ant_racer
Плюсы и минусы Ant_racer
Beer Game Environment
Среда OpenAI Gym на Python, моделирующая цепочку поставок Игры Пива для обучения и оценки RL агентов.

0


0
Посетить ИИ
Что такое Beer Game Environment?
Среда Beer Game обеспечивает дискретное моделирование цепочки поставок пива из четырёх этапов — розничного продавца, оптовика, дистрибьютора и производителя — с интерфейсом OpenAI Gym. Агентам предоставляются наблюдения, такие как наличие запасов, запас в pipeline и входящие заказы, после чего они выводят количество заказов. Среда рассчитывает издержки на хранение запасов и обратных заказов за каждый шаг и поддерживает настраиваемые распределения спроса и сроки выполнения. Она беспрепятственно интегрируется с популярными библиотеками RL, такими как Stable Baselines3, позволяя исследователям и педагогам тестировать и обучать алгоритмы для задач оптимизации цепочките поставок.
Основные функции Beer Game Environment