- Implementaciones de algoritmos Q-learning de campo medio
- Envoltorios de entornos para Particle World y Gridworld
- Pipeline de entrenamiento escalable para cientos de agentes
- Módulos modulares de política, entrenamiento y evaluación
- Aceleración GPU basada en PyTorch
- Registro integrado y visualización usando Matplotlib