- Treinamento de política baseado em PPO no ambiente SC2
- Integração com PySC2 do DeepMind para gerenciamento de estados/ações
- Arquiteturas de rede e recompensas configuráveis
- Suporte a multiprocessamento para coleta paralela de amostras
- Registro e integração com TensorBoard
- Scripts de avaliação para benchmarking de agentes