- Implementações de algoritmos Q-learning de campo médio
- Wrappers de ambiente para Particle World e Gridworld
- Pipelines de treinamento escaláveis para centenas de agentes
- Módulos modulares de política, treinamento e avaliação
- Aceleração GPU baseada em PyTorch
- Registro integrado e visualização usando Matplotlib