- Algoritmos pré-construídos: Q-learning, Monte Carlo, iteração de valores, iteração de políticas
- Múltiplos ambientes de exemplo: GridWorld, MountainCar, Multi-Armed Bandits
- Interface uniforme de agente-ambiente com classes base
- Funções utilitárias para registro, rastreamento de desempenho e visualização
- Design modular e extensível para agentes/ambientes personalizados