Мощные метрики обучения инструменты

Спонсируется Flowith - это агентное рабочее пространство на основе холста, которое предлагает бесплатно 🍌Nano Banana Pro и другие эффективные м



Flowith - это агентное рабочее пространство на основе холста, которое предлагает бесплатно 🍌Nano Banana Pro и другие эффективные м





Новости ИИ

Войти

метрики обучения

jason-RL
Jason-RL оснащает агенты Jason BDI алгоритмами обучения с подкреплением, обеспечивая адаптивное принятие решений на основе Q-обучения и SARSA с помощью опыта получения наград.

0


0
Посетить ИИ
Что такое jason-RL?
Jason-RL добавляет слой обучения с подкреплением в многопользовательскую систему Jason, позволяя агентам AgentSpeak BDI изучать политики выбора действий по наградной обратной связи. Реализует алгоритмы Q-обучения и SARSA, поддерживает настройку параметров обучения (скорость обучения, коэффициент дисконтирования, стратегию исследования) и регистрирует метрики тренировки. Определяя функции наград в планах агентов и запуская симуляции, разработчики могут наблюдать за улучшением решений агентов со временем и их адаптацией к меняющимся условиям без ручного кодирования политик.
Основные функции jason-RL

Интеграция Q-обучения

Интеграция SARSA

Настраиваемые параметры обучения

Поддержка функций наград

Логирование метрик тренировки
Scalable MADDPG
Масштабируемый MADDPG — это открытая платформа обучения с несколькими агентами, реализующая глубокий детерминированный градиент политики для нескольких агентов.

0


0
Посетить ИИ
Что такое Scalable MADDPG?
Масштабируемый MADDPG — это исследовательская рамка для многопрограммного обучения с усилением, обеспечивающая масштабируемую реализацию алгоритма MADDPG. В ней используются центральные критики в процессе обучения и независимые актеры при выполнении для стабильности и эффективности. Библиотека включает Python-скрипты для определения пользовательских окружений, настройки архитектур сетей и гиперпараметров. Пользователи могут обучать множество агентов параллельно, отслеживать метрики и визуализировать кривые обучения. Он интегрируется с окружениями, похожими на OpenAI Gym, и поддерживает ускорение с помощью GPU через TensorFlow. Благодаря модульной структуре, масштабируемый MADDPG обеспечивает гибкие эксперименты в кооперативных, соревновательных или смешанных задачах, облегчая быстрое прототипирование и бенчмаркинг.
Основные функции Scalable MADDPG



Рекомендуемые

метрики обучения

jason-RL

Scalable MADDPG