- Реализация Deep Q-Network
- Буфер воспроизведения опыта
- Обновление целевой сети
- Epsilon-жадное исследование
- Формирование наград, ориентированное на HFO
- Сценарии обучения и оценки
- Логирование и визуализация производительности
- Модульный код для собственных архитектур