jason-RLは、Jasonのマルチエージェントフレームワークに強化学習層を追加し、AgentSpeak BDIエージェントが報酬フィードバックを通じて行動選択ポリシーを学習できるようにします。Q学習とSARSAのアルゴリズムを実装し、学習パラメータ(学習率、割引ファクター、探索戦略)の設定をサポートし、トレーニングの指標をログに記録します。エージェントの計画で報酬関数を定義し、シミュレーションを実行することで、開発者はエージェントが時間とともに意思決定を改善し、環境の変化に適応する様子を観察できます。