- Implémentation du Deep Q-Network
- Buffer de replay d'expérience
- Mises à jour du réseau cible
- Exploration epsilon-greedy
- Façonnage de récompenses spécifique à HFO
- Scripts d'entraînement et d'évaluation
- Journalisation de la performance et tracé
- Code modulaire pour architectures personnalisées