- Multi-Agenten-Umgebungsgerüst
- Modulare Agenten- und Politikdefinitionen
- Anpassbare Belohnungsvermittlung
- Integrierte RL-Algorithmen (DQN, PPO, A3C)
- Szenariotemplating und dynamische Konfigurationen
- Management der Trainingsschleife und Callbacks
- Leistungsprotokollierung und Visualisierung