Pits and Orbs est un environnement open-source pour l’apprentissage par renforcement, implémenté en Python, offrant un monde de grille multi-agents au tour par tour où les agents poursuivent des objectifs et font face à des dangers environnementaux. Chaque agent doit naviguer sur une grille configurable, éviter des pièges placés aléatoirement qui pénalisent ou terminent les épisodes, et collecter des sphères pour des récompenses positives. L’environnement prend en charge des modes compétitifs et coopératifs, permettant aux chercheurs d’explorer divers scénarios d’apprentissage. Son API simple s’intègre parfaitement avec des bibliothèques RL populaires comme Stable Baselines ou RLlib. Les principales caractéristiques incluent des dimensions de grille ajustables, des distributions dynamiques de pièges et de sphères, des structures de récompense configurables, et un journalisation optionnelle pour l’analyse de l’entraînement.