- Implementación de Deep Q-Network
- Buffer de reproducción de experiencia
- Actualizaciones de red objetivo
- Exploración epsilon-greedy
- Modelado de recompensas específico para HFO
- Scripts de entrenamiento y evaluación
- Registro del rendimiento y gráficos
- Código modular para arquitecturas personalizadas