- Entrenamiento de políticas basado en PPO en entorno SC2
- Integración con PySC2 de DeepMind para manejo de estado/acción
- Arquitecturas de redes neuronales y recompensas configurables
- Soporte de multiprocesamiento para recolección paralela de muestras
- Registro y integración con TensorBoard
- Scripts de evaluación para benchmarking de agentes