Pits and Orbs는 Python으로 구현된 오픈소스 강화 학습 환경으로, 에이전트가 목표를 추구하고 환경 위험에 직면하는 턴 기반 다중 에이전트 그리드 월드를 제공합니다. 각 에이전트는 사용자 정의 가능한 격자를 탐색하며, 페널티를 부여하거나 에피소드를 종료하는 무작위로 배치된 함정을 피하고, 긍정적인 보상을 위해 구슬을 모아야 합니다. 이 환경은 경쟁 모드와 협력 모드를 모두 지원하며, 연구자들이 다양한 학습 시나리오를 탐구할 수 있게 합니다. 간단한 API는 Stable Baselines 또는 RLlib과 같은 인기 RL 라이브러리와 원활하게 통합됩니다. 주요 기능으로는 조정 가능한 격자 크기, 동적 함정 및 구슬 분포, 구성 가능한 보상 구조, 그리고 훈련 분석을 위한 선택적 로깅이 포함됩니다.