- Algoritmos preconstruidos: Q-learning, Monte Carlo, iteración de valores y políticas
- Múltiples entornos de ejemplo: GridWorld, MountainCar, Multi-Armed Bandits
- Interfaz uniforme agente-entorno con clases base
- Funciones utilitarias para registro, seguimiento de rendimiento y visualización
- Diseño modular y extensible para agentes/entornos personalizados