- PPO-basiertes Policy-Training in der SC2-Umgebung
- Integration mit DeepMind PySC2 für Zustands/Aktions-Handling
- Konfigurierbare neuronale Netzwerkarchitekturen und Belohnungen
- Multiprozess-Unterstützung für parallele Probensammlung
- Protokollierung und TensorBoard-Integration
- Evaluierungsskripte für Benchmarking von Agenten