- Готовые алгоритмы: Q-обучение, Монте-Карло, итерация стоимости, итерация политики
- Несколько примерных сред: GridWorld, MountainCar, Multi-Armed Bandits
- Общий интерфейс агента-среды с базовыми классами
- Вспомогательные функции для логирования, отслеживания производительности и визуализации
- Модульный и расширяемый дизайн для пользовательских агентов и сред