MARL-DPP는 결정점 프로세스(DPP)를 활용하여 여러 강化학습 에이전트를 훈련시키기 위한 Python 기반 프레임워크를 제공합니다. 보상 설계 또는 행동 선택에 DPP를 통합하여 다양한 탐색 및 협력 행동을 촉진합니다. 이 저장소에는 환경 통합 스크립트, 훈련 파이프라인, 평가 도구, 일반적인 다중 에이전트 벤치마크의 예제가 포함되어 있어 연구자와 실무자가 다양한 MARL 기법을 쉽게 실험할 수 있습니다.
MARL-DPP는 결정점 프로세스(DPP)를 활용하여 여러 강化학습 에이전트를 훈련시키기 위한 Python 기반 프레임워크를 제공합니다. 보상 설계 또는 행동 선택에 DPP를 통합하여 다양한 탐색 및 협력 행동을 촉진합니다. 이 저장소에는 환경 통합 스크립트, 훈련 파이프라인, 평가 도구, 일반적인 다중 에이전트 벤치마크의 예제가 포함되어 있어 연구자와 실무자가 다양한 MARL 기법을 쉽게 실험할 수 있습니다.
MARL-DPP는 결정점 프로세스(DPP)를 통해 다양성을 강제하는 오픈소스 프레임워크입니다. 전통적인 MARL 접근법은 정책이 유사한 행동에 수렴하는 문제를 겪는데, MARL-DPP는 DPP 기반 지표를 활용하여 에이전트가 다양한 행동 분포를 유지하도록 장려합니다. 모듈형 코드를 제공하여 DPP를 훈련 목표, 정책 샘플링, 탐색 관리에 포함시키며, OpenAI Gym 및 Multi-Agent Particle Environment(MPE)와 즉시 통합됩니다. 또한 하이퍼파라미터 관리, 로깅, 다양성 메트릭 시각화 유틸리티를 포함합니다. 연구자는 협력적 과제, 자원 할당 및 경쟁 게임에서 다양성 제약의 영향을 평가할 수 있으며, 확장 가능한 설계 덕분에 사용자 정의 환경과 고급 알고리즘도 지원하여 새로운 MARL-DPP 변형을 탐구할 수 있습니다.