Эффективные cooperative environments решения

Используйте cooperative environments инструменты с высокой производительностью для успешной работы.

cooperative environments

  • Открытая фреймворк на базе PyTorch, реализующий архитектуру CommNet для многопользовательского обучения с подкреплением с межагентской коммуникацией, что позволяет совместное принятие решений.
    0
    0
    Что такое CommNet?
    CommNet — это библиотека ориентированная на исследования, реализующая архитектуру CommNet, позволяющую нескольким агентам делиться скрытыми состояниями на каждом шаге времени и обучаться координировать действия в кооперативных средах. Включает определения моделей PyTorch, скрипты обучения и оценки, оболочки среды для OpenAI Gym и утилиты для настройки каналов связи, количества агентов и глубины сети. Исследователи и разработчики могут использовать CommNet для прототипирования и бенчмаркинга стратегий межагентской коммуникации в задачах навигации, преследования–уклонения и сбора ресурсов.
    Основные функции CommNet
    • Реализация архитектуры CommNet на PyTorch
    • Модуль обмена скрытыми состояниями между агентами
    • Настраиваемые слои сети и количество агентов
    • Скрипты обучения и оценки
    • Оболочки среды для OpenAI Gym
    • Утилиты логирования и контрольных точек
  • Конвейер DRL, который сбрасывает неэффективных агентов к предыдущим лучшим исполнителям для повышения стабильности и производительности обучения с несколькими агентами.
    0
    0
    Что такое Selective Reincarnation for Multi-Agent Reinforcement Learning?
    Selective Reincarnation вводит динамический механизм обучения на основе популяции, ориентированный на MARL. Производительность каждого агента регулярно оценивается по заранее заданным порогам. Когда производительность агента падает ниже уровня его коллег, его веса сбрасываются к текущему лучшему агенту, эффективно воскрешая его с подтвержденными поведениями. Этот подход сохраняет разнообразие, сбрасывая только тех, кто показывает слабые результаты, минимизируя разрушительные сбросы и направляя исследование к политикам с высоким вознаграждением. Благодаря целенаправленной наследуемости параметров нейронной сети, платформа снижает дисперсию и ускоряет сходимость как в кооперативных, так и в конкурентных средах. Совместима с любыми алгоритмами MARL на основе градиента политики, реализована в PyTorch и включает настраиваемые гиперпараметры для частоты оценки, критериев выбора и настройки стратегии сброса.
Рекомендуемые