Multiagent-Prediction-Reward — это исследовательский каркас, объединяющий предсказательные модели и механизмы распределения наград для многог агентного обучения с усилением. В его состав входят оболочки окружения, нейронные модули для прогнозирования действий сверстников и настраиваемая логика маршрутизации наград, адаптирующаяся к результатам работы агентов. Репозиторий содержит конфигурационные файлы, образцовые скрипты и панели оценки для проведения экспериментов по совместным задачам. Пользователи могут расширять код для тестирования новых функций наград, интеграции новых окружений и сравнения с существующими алгоритмами RL для множественных агентов.