Jason-RL ajoute une couche d'apprentissage par renforcement au cadre multi-agent Jason, permettant aux agents AgentSpeak BDI d'apprendre des politiques de sélection d'actions via le feedback de récompense. Elle met en œuvre les algorithmes Q-learning et SARSA, supporte la configuration des paramètres d'apprentissage (taux d'apprentissage, facteur d'actualisation, stratégie d'exploration) et enregistre les métriques d'entraînement. En définissant des fonctions de récompense dans les plans d'agents et en exécutant des simulations, les développeurs peuvent observer l'amélioration des prises de décision des agents au fil du temps, s'adaptant à des environnements changeants sans coder manuellement les politiques.