- Implementação do Deep Q-Network
- Buffer de replay de experiência
- Atualizações de rede alvo
- Exploração epsilon-greedy
- Modelagem de recompensas específica para HFO
- Scripts de treinamento e avaliação
- Registro de desempenho e plotagem
- Código modular para arquiteturas personalizadas