Jason-RL добавляет слой обучения с подкреплением в многопользовательскую систему Jason, позволяя агентам AgentSpeak BDI изучать политики выбора действий по наградной обратной связи. Реализует алгоритмы Q-обучения и SARSA, поддерживает настройку параметров обучения (скорость обучения, коэффициент дисконтирования, стратегию исследования) и регистрирует метрики тренировки. Определяя функции наград в планах агентов и запуская симуляции, разработчики могут наблюдать за улучшением решений агентов со временем и их адаптацией к меняющимся условиям без ручного кодирования политик.