- Algorithmes prédéfinis : Q-learning, Monte Carlo, itération de valeur, itération de politique
- Multiples environnements d'exemple : GridWorld, MountainCar, Multi-Armed Bandits
- Interface uniforme agent-environnement avec classes de base
- Fonctions utilitaires pour la journalisation, le suivi des performances et la visualisation
- Conception modulaire et extensible pour des agents/environnements personnalisés