jason-RL adiciona uma camada de aprendizagem por reforço ao framework de múltiplos agentes Jason, permitindo que agentes AgentSpeak BDI aprendam políticas de seleção de ações via feedback de recompensa. Implementa algoritmos Q-learning e SARSA, suporta a configuração de parâmetros de aprendizado (taxa de aprendizado, fator de desconto, estratégia de exploração) e registra métricas de treinamento. Definindo funções de recompensa nos planos dos agentes e executando simulações, os desenvolvedores podem observar os agentes melhorarem sua tomada de decisão ao longo do tempo, adaptando-se a ambientes em mudança sem programação manual de políticas.