Гибкие aprendizaje por refuerzo решения

Используйте многофункциональные aprendizaje por refuerzo инструменты, которые адаптируются под ваши нужды.

aprendizaje por refuerzo

  • AI Hedge Fund 5zu использует усиленное обучение для автоматизации управления портфелем и оптимизации торговых стратегий.
    0
    0
    Что такое AI Hedge Fund 5zu?
    AI Hedge Fund 5zu обеспечивает полноценную цепочку обработки для количественной торговли: настраиваемая среда для моделирования нескольких классов активов, модули агентов на базе усиленного обучения, утилиты для бэктестинга, интеграция рыночных данных в реальном времени и инструменты управления рисками. Пользователи могут настраивать источники данных, определять функции награды, обучать агентов на исторических данных и оценивать показатели эффективности по ключевым финансовым метрикам. Фреймворк поддерживает модульную разработку стратегий и легко расширяется для работы с API брокеров в реальном времени для развертывания торговых ботов производственного уровня.
  • Открытый набор инструментов на Python, предлагающий агенты для распознавания шаблонов на основе правил, случайных стратегий и обучения с подкреплением для игры Камень-Ножницы-Бумага.
    0
    0
    Что такое AI Agents for Rock Paper Scissors?
    AI-агенты для Камень-Ножницы-Бумага — это проект с открытым исходным кодом на Python, показывающий, как строить, обучать и оценивать различные стратегии AI — случайную игру, распознавание правил и обучение с подкреплением (Q-learning) — в классической игре. Он включает модульные классы агентов, настраиваемый механизм игры, логирование эффективности и утилиты визуализации. Пользователи легко могут менять агентов, регулировать параметры обучения и исследовать поведение ИИ в соревновательных сценариях.
  • Среда OpenAI Gym на Python, моделирующая цепочку поставок Игры Пива для обучения и оценки RL агентов.
    0
    0
    Что такое Beer Game Environment?
    Среда Beer Game обеспечивает дискретное моделирование цепочки поставок пива из четырёх этапов — розничного продавца, оптовика, дистрибьютора и производителя — с интерфейсом OpenAI Gym. Агентам предоставляются наблюдения, такие как наличие запасов, запас в pipeline и входящие заказы, после чего они выводят количество заказов. Среда рассчитывает издержки на хранение запасов и обратных заказов за каждый шаг и поддерживает настраиваемые распределения спроса и сроки выполнения. Она беспрепятственно интегрируется с популярными библиотеками RL, такими как Stable Baselines3, позволяя исследователям и педагогам тестировать и обучать алгоритмы для задач оптимизации цепочките поставок.
  • BotPlayers — это открытая платформа с открытым исходным кодом, позволяющая создавать, тестировать и развертывать агентов для игр с поддержкой обучения с подкреплением.
    0
    0
    Что такое BotPlayers?
    BotPlayers — это универсальный открытый фреймворк, разработанный для упрощения разработки и развертывания агентов для игр на базе искусственного интеллекта. Он включает гибкий слой абстракции среды, поддерживающий скриншоты, веб-API или настраиваемые интерфейсы моделирования, позволяя ботам взаимодействовать с разными играми. Встроенные алгоритмы обучения с подкреплением, генетические алгоритмы и эвристические правила, а также инструменты для логирования данных, создания контрольных точек моделей и визуализации производительности. Модульная система плагинов позволяет разработчикам настраивать датчики, действия и политики ИИ на Python или Java. Также доступны конфигурации на YAML для быстрой разработки прототипов и автоматизированных пайплайнов для обучения и оценки. Поддержка кроссплатформенности на Windows, Linux и macOS ускоряет эксперименты и производство интеллектуальных игровых агентов.
  • Открытая среда обучения с подкреплением с открытым исходным кодом для оптимизации управления энергопотреблением в зданиях, контроля микросетей и стратегий реагирования на спрос.
    0
    0
    Что такое CityLearn?
    CityLearn предоставляет модульную платформу моделирования для исследований в области управления энергией с использованием обучения с подкреплением. Пользователи могут определить многозональные группы зданий, настроить системы HVAC, аккумуляторы и возобновляемые источники энергии, затем обучать агентов RL на основе событий реагирования на спрос. Среда отображает наблюдения состояния, такие как температуры, профили нагрузки и цены энергии, в то время как действия управляют установками и диспетчеризацией хранения. Гибкий API наград позволяет использовать индивидуальные метрики — такие как экономия затрат или сокращение выбросов — а инструменты ведения журналов поддерживают анализ эффективности. CityLearn идеально подходит для сравнения алгоритмов, обучения по учебной программе и разработки новых стратегий управления в воспроизводимой исследовательской среде.
  • Открытая платформа, предлагающая агенты для торговли криптовалютами с использованием обучения с подкреплением, включая тестирование на исторических данных, интеграцию с живой торговлей и отслеживание эффективности.
    0
    0
    Что такое CryptoTrader Agents?
    CryptoTrader Agents предоставляет полный набор инструментов для проектирования, обучения и развертывания торговых стратегий на основе ИИ в криптовалютах. Включает модульную среду для загрузки данных, построения признаков и определения пользовательских функций вознаграждения. Пользователи могут использовать преднастроенные алгоритмы обучения с подкреплением или интегрировать собственные модели. Платформа обеспечивает симуляцию тестирования на исторических данных, контроль рисков и отслеживание метрик. Когда стратегия готова, агенты могут подключаться к API бирж для автоматического исполнения ордеров. На базе Python, фреймворк полностью расширяемый, что позволяет пользователям прототипировать новые тактики, запускать перебор параметров и наблюдать за результатами в реальном времени.
  • Высокопроизводительный Python-фреймворк, предоставляющий быстрые, модульные алгоритмы обучения с усилением с поддержкой нескольких сред.
    0
    0
    Что такое Fast Reinforcement Learning?
    Fast Reinforcement Learning — это специализированная Python-обёртка, предназначенная для ускорения разработки и выполнения агентов обучения с усилением. Она обеспечивает поддержку популярных алгоритмов, таких как PPO, A2C, DDPG и SAC, в сочетании с управлением высокопроизводительными векторизированными средами. Пользователи могут легко настраивать сеть политик, изменять учебные циклы и использовать GPU-ускорение для масштабных экспериментов. Модульная архитектура гарантирует бесшовную интеграцию с окружениями OpenAI Gym, что позволяет исследователям и практикам прототипировать, создавать бенчмарки и развёртывать агентов в различных задачах управления, игр и симуляций.
  • DeepSeek R1 – это передовая открытая модель ИИ, специализированная в рассуждениях, математике и программировании.
    0
    0
    Что такое Deepseek R1?
    DeepSeek R1 представляет собой значительный прорыв в области искусственного интеллекта, обеспечивая первоклассную производительность в задачах рассуждения, математики и кодирования. Используя сложную архитектуру MoE (Mixture of Experts) с 37B активными параметрами и 671B общими параметрами, DeepSeek R1 реализует передовые методы усиленного обучения для достижения лучших в своем классе показателей. Модель обеспечивает устойчивую производительность, включая 97,3% точности на MATH-500 и 96,3% по перцентилю на Codeforces. Ее открытая природа и экономически эффективные варианты развертывания делают ее доступной для широкого спектра приложений.
  • Рамки для обучения с подкреплением на базе Python, реализующие deep Q-learning для обучения AI-агента игре офлайн-динозавра Chrome.
    0
    0
    Что такое Dino Reinforcement Learning?
    Dino Reinforcement Learning — это полный набор инструментов для обучения AI-агента играть в игру динозавров Chrome с помощью обучения с подкреплением. Интеграция с безголовым Chrome через Selenium обеспечивает захват игровых кадров в реальном времени и их обработку в представления состояний, оптимизированные для входных данных глубоких Q-сетей. В рамках реализованы модули памяти воспроизведения, эвристического исследования epsilon-greedy, моделей сверточных нейронных сетей и циклов обучения с настраиваемыми гиперпараметрами. Пользователи могут отслеживать прогресс обучения через консольные логи и сохранять контрольные точки для последующей оценки. После обучения агент может быть запущен для автономной игры или протестирован против различных архитектур моделей. Модульный дизайн облегчает замену алгоритмов RL, что делает платформу гибкой для экспериментов.
  • Открытое исходное TensorFlow-основанный агент Deep Q-Network, обучающийся играть в Atari Breakout с использованием воспроизведения опыта и целевых сетей.
    0
    0
    Что такое DQN-Deep-Q-Network-Atari-Breakout-TensorFlow?
    DQN-Deep-Q-Network-Atari-Breakout-TensorFlow обеспечивает полную реализацию алгоритма DQN, адаптированную для среды Atari Breakout. Использует сверточную нейронную сеть для приближения Q-значений, применяет воспроизведение опыта для разрыва корреляций между последовательными наблюдениями и используют периодически обновляемую целевую сеть для стабилизации обучения. Агент действует по epsilon-greedy политике для исследования и может обучаться с нуля на необработанных пиксельных входных данных. В репозитории есть файлы конфигурации, скрипты обучения для мониторинга роста наград, тестовые скрипты для проверки обученных моделей и утилиты TensorBoard для визуализации метрик обучения. Пользователи могут настраивать гиперпараметры, такие как скорость обучения, размер буфера воспроизведения и размер пакета, для экспериментирования с разными настройками.
  • Открытая платформа PyTorch для многопользовательских систем, чтобы учиться и анализировать возникающие коммуникационные протоколы в задачах совместного обучения с подкреплением.
    0
    0
    Что такое Emergent Communication in Agents?
    Возникающая коммуникация в агентах — это открытая платформа на PyTorch, предназначенная для исследователей, изучающих, как многопользовательские системы разрабатывают собственные протоколы связи. Библиотека предлагает гибкие реализации совместных задач обучения с подкреплением, включая референциальные игры, комбинированные игры и задачи идентификации объектов. Пользователи определяют архитектуры говорящих и слушающих агентов, задают свойства каналов сообщений, такие как размер словаря и длина последовательности, и выбирают стратегии обучения, такие как градиенты политики или контролируемое обучение. В рамках представлены скрипты для запуска экспериментов, анализа эффективности коммуникации и визуализации возникающих языков. Модульная конструкция обеспечивает лёгкое расширение новыми игровыми средами или пользовательскими функциями потерь. Исследователи могут воспроизводить опубликованные исследования, создавать эталонные модели новых алгоритмов и исследовать композиционность и семантику языков агентов.
  • Gym-Recsys предоставляет настраиваемые окружения OpenAI Gym для масштабируемого обучения и оценки агентов рекомендаций с использованием обучения с подкреплением
    0
    0
    Что такое Gym-Recsys?
    Gym-Recsys — это набор инструментов, который оборачивает задачи рекомендаций в окружения OpenAI Gym, позволяя алгоритмам обучения с подкреплением взаимодействовать с имитированными матрицами пользователь-объект шаг за шагом. Он обеспечивает синтетические генераторы поведения пользователя, поддерживает загрузку популярных наборов данных и поставляет стандартные метрики, такие как Precision@K и NDCG. Пользователи могут настраивать функции награды, модели пользователя и пул объектов для экспериментов с различными стратегиями рекомендаций на основе RL, с возможностью воспроизведения результатов.
  • Коллекция настраиваемых окружений в виде сеточных миров, совместимых с OpenAI Gym, для разработки и тестирования алгоритмов обучения с усилением.
    0
    0
    Что такое GridWorldEnvs?
    GridWorldEnvs предоставляет полный набор окружений сеточного мира для поддержки проектирования, тестирования и сравнения систем обучения с усилением и мультиагентов. Пользователи могут легко настроить размеры сетки, начальные позиции агентов, местоположения целей, препятствия, структуры наград и пространства действий. В комплект входят шаблоны, такие как классическая навигация по сетке, избегание препятствий и кооперативные задачи, а также возможность определения собственных сценариев через JSON или Python-классы. Бесшовная интеграция с API OpenAI Gym позволяет применять стандартные алгоритмы RL напрямую. Кроме того, GridWorldEnvs поддерживает эксперименты с одним или множеством агентов, средства логирования и визуализации для отслеживания эффективности агентов.
  • gym-fx предоставляет настраиваемую среду OpenAI Gym для тренировки и оценки агентов обучения с подкреплением для стратегий торговли на Форекс.
    0
    0
    Что такое gym-fx?
    gym-fx — это библиотека с открытым исходным кодом на Python, реализующая имитированную среду торговли на Форекс с использованием интерфейса OpenAI Gym. Она поддерживает несколько валютных пар, интегрирует исторические ценовые данные, технические индикаторы и полностью настраиваемые функции награды. Предоставляя стандартизированный API, gym-fx упрощает проведение бенчмаркинга и разработки алгоритмов обучения с подкреплением для алгоритмической торговли. Пользователи могут настраивать проскальзывание на рынке, транзакционные издержки и пространства для наблюдений, чтобы максимально точно моделировать реальные торговые сценарии, что способствует разработке и оценке устойчивых стратегий.
  • gym-llm предлагает среды в стиле gym для оценки и обучения агентов LLM в задачах диалога и принятия решений.
    0
    0
    Что такое gym-llm?
    gym-llm расширяет экосистему OpenAI Gym, определяя текстовые среды, в которых агенты LLM взаимодействуют через подсказки и действия. Каждая среда следует соглашениям Gym для шага, сброса и отображения, выдавая наблюдения в виде текста и принимая ответы, сгенерированные моделью, как действия. Разработчики могут создавать собственные задачи, задавая шаблоны подсказок, вычисление награды и условия завершения, что позволяет реализовать сложные тесты на принятие решений и диалоги. Интеграция с популярными библиотеками RL, инструментами логирования и настраиваемыми метриками оценки обеспечивает полноценные эксперименты. Поскольку вы можете оценивать способность LLM решать головоломки, управлять диалогами или справляться с структурированными задачами, gym-llm предоставляет стандартизированный и воспроизводимый фреймворк для исследований и разработки продвинутых языковых агентов.
  • Среда OpenAI Gym на базе Python, предлагающая настраиваемые многокомнатные сеточные миры для исследований навигации и исследования агентов обучения с подкреплением.
    0
    0
    Что такое gym-multigrid?
    gym-multigrid предоставляет ряд настраиваемых сред сеточного типа, предназначенных для задач многокомнатной навигации и исследования в установках обучения с подкреплением. Каждая среда состоит из взаимосвязанных комнат, заполненных объектами, ключами, дверьми и препятствиями. Пользователи могут программно менять размер сетки, конфигурации комнат и размещение объектов. Библиотека поддерживает режимы полной или частичной наблюдаемости, предлагая RGB-или матричные представления состояния. Действия включают перемещение, взаимодействие с объектами и управление дверьми. Интегрируя как среду Gym, исследователи могут использовать любой совместимый с Gym агент для обучения и оценки алгоритмов по задачам, таким как головоломки с ключами и дверями, поиск объектов и иерархическое планирование. Модульный дизайн и минимальные зависимости делают gym-multigrid отличным инструментом для тестирования новых интеллектуальных стратегий.
  • HFO_DQN — это рамочная система обучения с подкреплением, которая применяет Deep Q-Network для обучения футбольных агентов в среде RoboCup Half Field Offense.
    0
    0
    Что такое HFO_DQN?
    HFO_DQN объединяет Python и TensorFlow, чтобы предоставить полный поток для обучения футбольных агентов с помощью Deep Q-Networks. Пользователи могут клонировать репозиторий, установить зависимости, включая симулятор HFO и библиотеки Python, и настроить параметры обучения в YAML-файлах. Этот фреймворк реализует повторный опыт, обновления целевых сетей, ε-жадное исследование и формирование наград, адаптированные для области полуценра. Включает сценарии для обучения агентов, логирование производительности, оценочные матчи и визуализацию результатов. Его модульная структура позволяет интегрировать собственные архитектуры нейронных сетей, альтернативные алгоритмы RL и стратегии координации нескольких агентов. Выходные данные включают обученные модели, метрики производительности и визуализации поведения, способствуя исследованиям в области обучения с подкреплением и многопользовательских систем.
  • Jason-RL оснащает агенты Jason BDI алгоритмами обучения с подкреплением, обеспечивая адаптивное принятие решений на основе Q-обучения и SARSA с помощью опыта получения наград.
    0
    0
    Что такое jason-RL?
    Jason-RL добавляет слой обучения с подкреплением в многопользовательскую систему Jason, позволяя агентам AgentSpeak BDI изучать политики выбора действий по наградной обратной связи. Реализует алгоритмы Q-обучения и SARSA, поддерживает настройку параметров обучения (скорость обучения, коэффициент дисконтирования, стратегию исследования) и регистрирует метрики тренировки. Определяя функции наград в планах агентов и запуская симуляции, разработчики могут наблюдать за улучшением решений агентов со временем и их адаптацией к меняющимся условиям без ручного кодирования политик.
  • MARFT — это открытый исходный код многопользовательский набор инструментов для тонкой настройки обучения с подкреплением нескольких агентов для совместных работ ИИ и оптимизации языковых моделей.
    0
    0
    Что такое MARFT?
    MARFT — это основанный на Python инструмент для больших языковых моделей (LLM), позволяющий воспроизводить эксперименты и быстро прототипировать системы совместного ИИ.
  • Платформа с открытым исходным кодом, вдохновленная Minecraft, позволяющая агентам искусственного интеллекта обучаться сложным задачам в настраиваемых 3D-песочницах.
    0
    0
    Что такое MineLand?
    MineLand предоставляет гибкую 3D-среду, вдохновленную Minecraft, для обучения агентов с усилением. Она имеет API, совместимый с Gym, для бесшовной интеграции с существующими библиотеками RL, такими как Stable Baselines, RLlib и пользовательские реализации. Пользователи имеют доступ к библиотеке задач, включая сбор ресурсов, навигацию и строительные вызовы, каждая с настраиваемой сложностью и структурой наград. В режиме реального времени, мультиагентские сценарии и безграфические режимы позволяют масштабируемое обучение и бенчмаркинг. Разработчики могут проектировать новые карты, определять пользовательские функции награды и добавлять дополнительные датчики или контроллеры. Открытый исходный код MineLand способствует воспроизводимости исследований, совместной разработке и быстрому прототипированию AI-агентов в сложных виртуальных мирах.
Рекомендуемые