jason-RL은 Jason 멀티 에이전트 프레임워크에 강화학습 계층을 추가하여, AgentSpeak BDI 에이전트가 보상 피드백을 통해 행동 선택 정책을 학습할 수 있게 합니다. Q-학습과 SARSA 알고리즘을 구현하며, 학습 매개변수(학습률, 할인 인자, 탐색 전략) 설정 지원과 학습 지표 로그 기록이 가능합니다. 에이전트 계획 내에 보상 함수를 정의하고 시뮬레이션을 수행함으로써, 개발자는 시간이 지남에 따라 에이전트의 의사결정이 향상되고 환경 변화에 적응하는 모습을 관찰할 수 있습니다.
가위 바위 보를 위한 AI 에이전트는 랜덤 플레이, 규칙 기반 패턴 인식, 강화를 포함한 다양한 전략을 구축, 훈련, 평가하는 오픈소스 Python 프로젝트입니다. 모듈식 에이전트 클래스, 설정 가능한 게임 실행기, 성능 로깅 및 시각화 유틸리티를 제공합니다. 사용자는 에이전트를 쉽게 교체하고, 학습 파라미터를 조정하며, 경쟁 시나리오에서 AI 행동을 탐색할 수 있습니다.