- Entraînement de politique basé sur PPO dans l’environnement SC2
- Intégration avec PySC2 de DeepMind pour la gestion des états/actions
- Architectures de réseaux neuronaux et récompenses configurables
- Support multiprocessing pour la collecte parallèle d’échantillons
- Journalisation et intégration avec TensorBoard
- Scripts d’évaluation pour le benchmarking des agents