MAPF_G2RL é uma estrutura de pesquisa de código aberto que une teoria dos gráficos e aprendizagem por reforço profundo para resolver o problema de busca de caminho multiagente (MAPF). Ela codifica nós e arestas em representações vetoriais, define funções de recompensa espacial e conscientes de colisões, e suporta vários algoritmos de RL, como DQN, PPO e A2C. A estrutura automatiza a criação de cenários gerando gráficos aleatórios ou importando mapas do mundo real, e coordena laços de treinamento que otimizam políticas para múltiplos agentes simultaneamente. Após o aprendizado, os agentes são avaliados em ambientes simulados para medir a otimização do caminho, o tempo de execução total e as taxas de sucesso. Seu design modular permite que pesquisadores estendam componentes essenciais, integrem novas técnicas de MARL e façam benchmarks contra solucionadores clássicos.