Jason-RL fügt dem Jason Multi-Agenten-Framework eine Verstärkendes Lernen-Schicht hinzu, die es AgentSpeak-BDI-Agenten ermöglicht, Aktions-Auswahl-Politiken durch Belohnungsfeedback zu erlernen. Es implementiert Q-Learning und SARSA, unterstützt die Konfiguration von Lernparametern (Lernrate, Diskontfaktor, Explorationsstrategie) und protokolliert Trainingsmetriken. Durch die Definition von Belohnungsfunktionen in Agentenplänen und das Ausführen von Simulationen können Entwickler beobachten, wie Agenten im Laufe der Zeit Entscheidungsfindung verbessern und sich an sich ändernde Umgebungen anpassen, ohne manuell Politiken zu codieren.