jason-RL은 Jason 멀티 에이전트 프레임워크에 강화학습 계층을 추가하여, AgentSpeak BDI 에이전트가 보상 피드백을 통해 행동 선택 정책을 학습할 수 있게 합니다. Q-학습과 SARSA 알고리즘을 구현하며, 학습 매개변수(학습률, 할인 인자, 탐색 전략) 설정 지원과 학습 지표 로그 기록이 가능합니다. 에이전트 계획 내에 보상 함수를 정의하고 시뮬레이션을 수행함으로써, 개발자는 시간이 지남에 따라 에이전트의 의사결정이 향상되고 환경 변화에 적응하는 모습을 관찰할 수 있습니다.