Este repositorio proporciona un marco completo para la investigación en juego en StarCraft II. El agente principal usa Proximal Policy Optimization (PPO) para aprender redes de política que interpretan datos de observación del entorno PySC2 y generan acciones precisas en el juego. Los desarrolladores pueden configurar capas de redes neuronales, formateo de recompensas y horarios de entrenamiento para optimizar el rendimiento. El sistema soporta multiproceso para recolección eficiente de muestras, utilidades de registro para monitorear curvas de entrenamiento y scripts de evaluación para correr políticas entrenadas contra oponentes scriptados o AI incorporados. El código está escrito en Python y aprovecha TensorFlow para definición y optimización de modelos. Los usuarios pueden extender componentes como funciones de recompensa personalizadas, preprocesamiento de estado o arquitecturas de red para fines específicos de investigación.