Интуитивные обучение с подкреплением решения

Эти обучение с подкреплением инструменты созданы, чтобы облегчить вашу работу и ускорить выполнение задач.

обучение с подкреплением

  • Gym-Recsys предоставляет настраиваемые окружения OpenAI Gym для масштабируемого обучения и оценки агентов рекомендаций с использованием обучения с подкреплением
    0
    0
    Что такое Gym-Recsys?
    Gym-Recsys — это набор инструментов, который оборачивает задачи рекомендаций в окружения OpenAI Gym, позволяя алгоритмам обучения с подкреплением взаимодействовать с имитированными матрицами пользователь-объект шаг за шагом. Он обеспечивает синтетические генераторы поведения пользователя, поддерживает загрузку популярных наборов данных и поставляет стандартные метрики, такие как Precision@K и NDCG. Пользователи могут настраивать функции награды, модели пользователя и пул объектов для экспериментов с различными стратегиями рекомендаций на основе RL, с возможностью воспроизведения результатов.
  • FlowRL AI предоставляет персонализацию пользовательского интерфейса в реальном времени на основе метрик с использованием обучения с подкреплением.
    0
    0
    Что такое flowRL?
    FlowRL AI - это мощная платформа, которая предоставляет персонализацию пользовательского интерфейса в реальном времени с использованием обучения с подкреплением. Настраивая пользовательский интерфейс в соответствии с индивидуальными потребностями и предпочтениями пользователей, FlowRL способствует значительному улучшению ключевых бизнес-метрик. Платформа разработана для динамической настройки элементов интерфейса на основе живых данных, позволяя компаниям обеспечивать высокий уровень персонализированного пользовательского опыта, что увеличивает вовлеченность и коэффициенты конверсии.
  • Коллекция настраиваемых окружений в виде сеточных миров, совместимых с OpenAI Gym, для разработки и тестирования алгоритмов обучения с усилением.
    0
    0
    Что такое GridWorldEnvs?
    GridWorldEnvs предоставляет полный набор окружений сеточного мира для поддержки проектирования, тестирования и сравнения систем обучения с усилением и мультиагентов. Пользователи могут легко настроить размеры сетки, начальные позиции агентов, местоположения целей, препятствия, структуры наград и пространства действий. В комплект входят шаблоны, такие как классическая навигация по сетке, избегание препятствий и кооперативные задачи, а также возможность определения собственных сценариев через JSON или Python-классы. Бесшовная интеграция с API OpenAI Gym позволяет применять стандартные алгоритмы RL напрямую. Кроме того, GridWorldEnvs поддерживает эксперименты с одним или множеством агентов, средства логирования и визуализации для отслеживания эффективности агентов.
  • gym-fx предоставляет настраиваемую среду OpenAI Gym для тренировки и оценки агентов обучения с подкреплением для стратегий торговли на Форекс.
    0
    0
    Что такое gym-fx?
    gym-fx — это библиотека с открытым исходным кодом на Python, реализующая имитированную среду торговли на Форекс с использованием интерфейса OpenAI Gym. Она поддерживает несколько валютных пар, интегрирует исторические ценовые данные, технические индикаторы и полностью настраиваемые функции награды. Предоставляя стандартизированный API, gym-fx упрощает проведение бенчмаркинга и разработки алгоритмов обучения с подкреплением для алгоритмической торговли. Пользователи могут настраивать проскальзывание на рынке, транзакционные издержки и пространства для наблюдений, чтобы максимально точно моделировать реальные торговые сценарии, что способствует разработке и оценке устойчивых стратегий.
  • gym-llm предлагает среды в стиле gym для оценки и обучения агентов LLM в задачах диалога и принятия решений.
    0
    0
    Что такое gym-llm?
    gym-llm расширяет экосистему OpenAI Gym, определяя текстовые среды, в которых агенты LLM взаимодействуют через подсказки и действия. Каждая среда следует соглашениям Gym для шага, сброса и отображения, выдавая наблюдения в виде текста и принимая ответы, сгенерированные моделью, как действия. Разработчики могут создавать собственные задачи, задавая шаблоны подсказок, вычисление награды и условия завершения, что позволяет реализовать сложные тесты на принятие решений и диалоги. Интеграция с популярными библиотеками RL, инструментами логирования и настраиваемыми метриками оценки обеспечивает полноценные эксперименты. Поскольку вы можете оценивать способность LLM решать головоломки, управлять диалогами или справляться с структурированными задачами, gym-llm предоставляет стандартизированный и воспроизводимый фреймворк для исследований и разработки продвинутых языковых агентов.
  • Среда OpenAI Gym на базе Python, предлагающая настраиваемые многокомнатные сеточные миры для исследований навигации и исследования агентов обучения с подкреплением.
    0
    0
    Что такое gym-multigrid?
    gym-multigrid предоставляет ряд настраиваемых сред сеточного типа, предназначенных для задач многокомнатной навигации и исследования в установках обучения с подкреплением. Каждая среда состоит из взаимосвязанных комнат, заполненных объектами, ключами, дверьми и препятствиями. Пользователи могут программно менять размер сетки, конфигурации комнат и размещение объектов. Библиотека поддерживает режимы полной или частичной наблюдаемости, предлагая RGB-или матричные представления состояния. Действия включают перемещение, взаимодействие с объектами и управление дверьми. Интегрируя как среду Gym, исследователи могут использовать любой совместимый с Gym агент для обучения и оценки алгоритмов по задачам, таким как головоломки с ключами и дверями, поиск объектов и иерархическое планирование. Модульный дизайн и минимальные зависимости делают gym-multigrid отличным инструментом для тестирования новых интеллектуальных стратегий.
  • HFO_DQN — это рамочная система обучения с подкреплением, которая применяет Deep Q-Network для обучения футбольных агентов в среде RoboCup Half Field Offense.
    0
    0
    Что такое HFO_DQN?
    HFO_DQN объединяет Python и TensorFlow, чтобы предоставить полный поток для обучения футбольных агентов с помощью Deep Q-Networks. Пользователи могут клонировать репозиторий, установить зависимости, включая симулятор HFO и библиотеки Python, и настроить параметры обучения в YAML-файлах. Этот фреймворк реализует повторный опыт, обновления целевых сетей, ε-жадное исследование и формирование наград, адаптированные для области полуценра. Включает сценарии для обучения агентов, логирование производительности, оценочные матчи и визуализацию результатов. Его модульная структура позволяет интегрировать собственные архитектуры нейронных сетей, альтернативные алгоритмы RL и стратегии координации нескольких агентов. Выходные данные включают обученные модели, метрики производительности и визуализации поведения, способствуя исследованиям в области обучения с подкреплением и многопользовательских систем.
  • Jason-RL оснащает агенты Jason BDI алгоритмами обучения с подкреплением, обеспечивая адаптивное принятие решений на основе Q-обучения и SARSA с помощью опыта получения наград.
    0
    0
    Что такое jason-RL?
    Jason-RL добавляет слой обучения с подкреплением в многопользовательскую систему Jason, позволяя агентам AgentSpeak BDI изучать политики выбора действий по наградной обратной связи. Реализует алгоритмы Q-обучения и SARSA, поддерживает настройку параметров обучения (скорость обучения, коэффициент дисконтирования, стратегию исследования) и регистрирует метрики тренировки. Определяя функции наград в планах агентов и запуская симуляции, разработчики могут наблюдать за улучшением решений агентов со временем и их адаптацией к меняющимся условиям без ручного кодирования политик.
  • MARFT — это открытый исходный код многопользовательский набор инструментов для тонкой настройки обучения с подкреплением нескольких агентов для совместных работ ИИ и оптимизации языковых моделей.
    0
    0
    Что такое MARFT?
    MARFT — это основанный на Python инструмент для больших языковых моделей (LLM), позволяющий воспроизводить эксперименты и быстро прототипировать системы совместного ИИ.
  • Платформа с открытым исходным кодом, вдохновленная Minecraft, позволяющая агентам искусственного интеллекта обучаться сложным задачам в настраиваемых 3D-песочницах.
    0
    0
    Что такое MineLand?
    MineLand предоставляет гибкую 3D-среду, вдохновленную Minecraft, для обучения агентов с усилением. Она имеет API, совместимый с Gym, для бесшовной интеграции с существующими библиотеками RL, такими как Stable Baselines, RLlib и пользовательские реализации. Пользователи имеют доступ к библиотеке задач, включая сбор ресурсов, навигацию и строительные вызовы, каждая с настраиваемой сложностью и структурой наград. В режиме реального времени, мультиагентские сценарии и безграфические режимы позволяют масштабируемое обучение и бенчмаркинг. Разработчики могут проектировать новые карты, определять пользовательские функции награды и добавлять дополнительные датчики или контроллеры. Открытый исходный код MineLand способствует воспроизводимости исследований, совместной разработке и быстрому прототипированию AI-агентов в сложных виртуальных мирах.
  • Упрощенная реализация AlphaStar на PyTorch, позволяющая обучать агента RL для StarCraft II с модульной архитектурой сети и самостоятельной игрой.
    0
    0
    Что такое mini-AlphaStar?
    mini-AlphaStar демистифицирует сложную архитектуру AlphaStar, предлагая доступную и с открытым исходным кодом платформу на PyTorch для разработки ИИ для StarCraft II. Включает пространственные кодеры признаков для входных данных экрана и миникарты, обработку не пространственных признаков, модули памяти LSTM, отдельные сети политики и оценки стоимости для выбора действий и оценки состояния. Используя обучение имитацией для начальной настройки и обучение с усилением с помощью самоигры для донастройки, он поддерживает совместимые с pysc2 обертки окружения, логирование через TensorBoard и настраиваемые гиперпараметры. Исследователи и студенты могут создавать наборы данных из игровых состояний человека, обучать модели на пользовательских сценариях, оценивать эффективность агента и визуализировать кривые обучения. Модульный код облегчает эксперименты с вариациями сети, графиками обучения и многопро Agent-и. Предназначен для образовательных целей и прототипирования, а не для промышленного использования.
  • Среда на базе Unity ML-Agents для обучения совместных многоагентных задач инспекции в настраиваемых 3D виртуальных сценариях.
    0
    0
    Что такое Multi-Agent Inspection Simulation?
    Многоагентная симуляция инспекции предоставляет комплексную платформу для моделирования и обучения нескольких автономных агентов для выполнения инспекционных задач в кооперативе в средах Unity 3D. Она интегрируется с набором инструментов Unity ML-Agents, предлагая настраиваемые сцены с целями инспекции, регулируемыми функциями наград и параметрами поведения агентов. Исследователи могут писать собственные сценарии, определять число агентов и задавать учебные планы через API на Python. Пакет поддерживает параллельное обучение, ведение логов в TensorBoard и настраиваемые наблюдения, такие как лазерные лучи, видеопотоки камер и данные о положении. Регулируя гиперпараметры и сложность среды, пользователи могут проводить бенчмарки алгоритмов обучения с подкреплением по показателям охвата, эффективности и координации. Открытый исходный код способствует расширениям для прототипирования роботов, исследований в области кооперативного ИИ и учебных демонстраций в системах с несколькими агентами.
  • Открытая среда на Python для обучения кооперативных агентов ИИ для совместного наблюдения и обнаружения нарушителей в сценариях на основе решетки.
    0
    0
    Что такое Multi-Agent Surveillance?
    Multi-Agent Surveillance предлагает гибкую симуляционную среду, в которой несколько ИИ-агентов выступают в роли хищников или жертв в дискретном мире на сетке. Пользователи могут настраивать параметры окружения, такие как размеры сетки, количество агентов, радиусы обнаружения и структуры вознаграждения. В репозитории есть классы на Python для поведения агентов, скрипты генерации сценариев, встроенная визуализация с помощью matplotlib и бесшовная интеграция с популярными библиотеками обучения с подкреплением. Это облегчает создание эталонных тестов для координации нескольких агентов, разработку нестандартных стратегий наблюдения и проведение воспроизводимых экспериментов.
  • Открытая среда моделирования на Python для обучения кооперативного управления роем дроном с помощью многоагентного обучения с подкреплением.
    0
    0
    Что такое Multi-Agent Drone Environment?
    Многоагентная среда для дронов — это Python-пакет, предлагающий настраиваемую симуляцию для роев UAV, основанную на OpenAI Gym и PyBullet. Пользователи задают несколько агентов, моделирующих кинематические и динамические характеристики, для выполнения кооперативных задач, таких как ф formation flying , слежение за целью и обход препятствий. Среда поддерживает модульную настройку задач, реалистичное обнаружение столкновений и моделирование сенсоров, а также возможность создавать пользовательские функции награды и децентрализованные политики. Разработчики могут интегрировать собственные алгоритмы обучения с подкреплением, оценивать их эффективность в различных сценариях и визуализировать траектории и показатели работы агентов в реальном времени. Благодаря открытой архитектуре она стимулирует вклад сообщества, что делает её подходящей для исследований, обучения и прототипирования сложных систем управления множеством агентов.
  • Координирует несколько автономных агентов по сбору отходов с помощью обучения с подкреплением для эффективной оптимизации маршрутов сбора.
    0
    0
    Что такое Multi-Agent Autonomous Waste Collection System?
    Многоагентная система автономного сбора отходов — исследовательская платформа, которая использует обучение с подкреплением для обучения отдельных роботов-сборщиков отходов сотрудничеству при планировании маршрутов. Агенты обучаются избегать избыточного покрытия, минимизировать путь и реагировать на динамические модели генерации отходов. Разработан на Python, система включает среду моделирования для тестирования и корректировки политик перед внедрением в реальной среде. Пользователи могут настраивать карты, точки сдачи отходов, датчики агентов и структуры вознаграждений для адаптации поведения к конкретным городским районам или операционным ограничениям.
  • Открытая платформа для многоагентного ИИ для совместного отслеживания объектов в видео с использованием глубокого обучения и укрепленного принятия решений.
    0
    0
    Что такое Multi-Agent Visual Tracking?
    Многоагентное визуальное отслеживание реализует распределенную систему, состоящую из интеллектуальных агентов, которые обмениваются информацией для повышения точности и устойчивости отслеживания объектов в видео. Агенты используют сверточные нейронные сети для обнаружения, делятся наблюдениями для обработки заслонок, корректируют параметры отслеживания с помощью обучения с подкреплением. Совместимо с популярными наборами данных видео, поддерживает обучение и прогнозирование в реальном времени. Пользователи легко интегрируют его в существующие пайплайны и расширяют поведение агентов под индивидуальные задачи.
  • Открытая платформа с несколькими агентами для обучения с подкреплением, позволяющая управлять агентами на уровне команды и взаимодействовать в StarCraft II через PySC2.
    0
    0
    Что такое MultiAgent-Systems-StarCraft2-PySC2-Raw?
    MultiAgent-Systems-StarCraft2-PySC2-Raw предоставляет полный инструментарий для разработки, обучения и оценки нескольких AI-агентов в StarCraft II. Он обеспечивает низкоуровневое управление движением юнитов, целью и способностями, а также гибкую настройку наград и сценариев. Пользователи могут легко интегрировать собственные архитектуры нейронных сетей, определять стратегии командного взаимодействия и записывать метрики. Основанный на PySC2, он поддерживает параллельное обучение, создание снимков и визуализацию, что делает его идеальным для исследований в области обучения с подкреплением с несколькими агентами.
  • Многоагентная среда обучения с подкреплением на базе Python для разработки и моделирования кооперативных и соревновательных AI-агентов.
    0
    0
    Что такое Multiagent_system?
    Multiagent_system предлагает полноценный набор инструментов для построения и управления средами с несколькими агентами. Пользователи могут задавать собственные сценарии моделирования, описывать поведение агентов и использовать предустановленные алгоритмы, такие как DQN, PPO и MADDPG. Фреймворк поддерживает синхронное и асинхронное обучение, позволяя агентам взаимодействовать одновременно или по очереди. Встроенные модули коммуникации облегчают обмен сообщениями между агентами для кооперативных стратегий. Конфигурация экспериментов упрощена с помощью YAML-файлов, а результаты автоматически сохраняются в формате CSV или в TensorBoard. Скрипты визуализации помогают интерпретировать траектории агентов, динамику наград и схемы коммуникации. Разработан для исследовательских и производственных задач, Multiagent_system легко масштабируется от одиночных прототипов до распределенного обучения на GPU-кластеров.
  • Многоагентская симуляционная платформа на Python, позволяющая одновременно сотрудничать, соревноваться и обучать агентов в настраиваемых окружениях.
    0
    1
    Что такое MultiAgentes?
    MultiAgentes использует модульную архитектуру для определения окружений и агентов, поддерживая синхронные и асинхронные взаимодействия между агентами. Включает базовые классы для окружений и агентов, предопределённые сценарии совместных и соревновательных задач, инструменты для настройки функций вознаграждения и API для обмена сообщениями и совместного использования наблюдений. Инструменты визуализации обеспечивают мониторинг поведения агентов в реальном времени, при этом модули логирования записывают метрики производительности для анализа. Фреймворк легко интегрируется с совместимыми с Gym библиотеками RL, позволяя обучать агентов с помощью существующих алгоритмов. MultiAgentes спроектирован с расчётом на расширяемость, позволяя разработчикам добавлять новые шаблоны окружений, типы агентов и протоколы связи для удовлетворения потребностей различных исследований и образовательных целей.
  • Открытая платформа для реализации и оценки стратегий многопротокольного ИИ в классической игре Pacman.
    0
    0
    Что такое MultiAgentPacman?
    MultiAgentPacman предлагает среду для игры на Python, в которой пользователи могут реализовывать, визуализировать и сравнивать нескольких AI-агентов в области Pacman. Поддерживаются алгоритмы поиска противника, такие как minimax, expectimax, alpha-beta-отсечение, а также пользовательные агенты на основе обучения с подкреплением или эвристик. Фреймворк включает простое GUI, командную строку и инструменты для ведения статистики игр и сравнения эффективности агентов в соревновательных или совместных сценариях.
Рекомендуемые