Open-source рамочная платформа с несколькими агентами с обучением с подкреплением для кооперативного управления автономными транспортными средствами в дорожных сценариях.
AutoDRIVE Cooperative MARL — это открытая платформа для обучения и развертывания совместных политик обучения с подкреплением для автономных заданий. Она интегрируется с реалистичными симуляторами для моделирования дорожных сценариев, таких как перекрестки, автопоезда на шоссе и сценарии слияния. В рамках реализовано централизованное обучение с децентрализованным выполнением, что позволяет транспортным средствам обучаться объединённым политикам для повышения эффективности и безопасности дорожного движения. Пользователи могут настраивать параметры среды, выбирать алгоритмы MARL, визуализировать прогресс обучения и оценивать координацию агентов.
Основные функции AutoDRIVE Cooperative MARL
Централизованное обучение с децентрализованным выполнением
Кооперативные алгоритмы обучения с подкреплением для нескольких агентов
PommerLearn позволяет исследователям и разработчикам обучать многоагентных RL-ботов в среде игры Pommerman. Включает готовые реализации популярных алгоритмов (PPO, DQN), гибкие конфигурационные файлы для гиперпараметров, автоматическое логирование и визуализацию метрик обучения, контрольные точки моделей и скрипты оценки. Его модульная архитектура облегчает расширение новыми алгоритмами, настройку среды и интеграцию с стандартными ML-библиотеками, такими как PyTorch.
NavGround Learning предоставляет полный набор инструментов для разработки и бенчмаркинга агентов обучения с усилением в задачах навигации. Поддерживаются мультиигровые симуляции, моделирование столкновений, настраиваемые сенсоры и исполнительные устройства. Пользователи могут выбирать из предопределённых шаблонов политик или реализовывать собственные архитектуры, обучаться передовыми RL-алгоритмами и визуализировать показатели производительности. Интеграция с OpenAI Gym и Stable Baselines3 упрощает управление экспериментами, а встроенные инструменты логирования и визуализации позволяют углубленный анализ поведения агентов и динамики обучения.