- GPU-accelerierte Parallel-Umgebungssimulation
- Integrierte MARL-Algorithmen (PPO, MADDPG, QMIX, COMA)
- Modulare Umfeld- und Politik-Schnittstellen
- Unterstützung für zentrales Training mit dezentraler Ausführung
- Anpassbare Belohnungsformung und Callback-Hooks