Este repositório implementa comunicação emergente em aprendizado por reforço multiagente usando PyTorch. Os usuários podem configurar redes neurais de emissores e receptores para jogar jogos referenciais ou navegação cooperativa, incentivando os agentes a desenvolver um canal de comunicação discreto ou contínuo. Oferece scripts para treinamento, avaliação e visualização dos protocolos aprendidos, além de utilitários para criação de ambientes, codificação e decodificação de mensagens. Pesquisadores podem expandi-lo com tarefas personalizadas, modificar arquiteturas de rede e analisar a eficiência do protocolo, promovendo experimentação rápida em comunicação emergente de agentes.
Recursos Principais do Learning-to-Communicate-PyTorch
Pits and Orbs oferece um ambiente de mundo em grade multi-agente onde os agentes de IA evitam armadilhas, coletam orbes e competem em cenários baseados em turnos.
Pits and Orbs é um ambiente de aprendizado por reforço de código aberto implementado em Python, oferecendo um mundo em grade multi-agente baseado em turnos onde os agentes perseguem objetivos e enfrentam perigos ambientais. Cada agente deve navegar por uma grade personalizável, evitar poços colocados aleatoriamente que penalizam ou encerram episódios, e coletar orbes para recompensas positivas. O ambiente suporta modos competitivos e cooperativos, permitindo aos pesquisadores explorar cenários de aprendizado variados. Sua API simples se integra facilmente com bibliotecas populares de RL, como Stable Baselines ou RLlib. Recursos principais incluem dimensões ajustáveis da grade, distribuições dinâmicas de poços e orbes, estruturas de recompensa configuráveis e registro opcional para análise de treinamento.
RL Shooter é uma estrutura baseada em Python que integra ViZDoom com APIs do OpenAI Gym para criar um ambiente de aprendizagem por reforço flexível para jogos FPS. Os usuários podem definir cenários, mapas e estruturas de recompensa personalizadas para treinar agentes em tarefas de navegação, detecção de alvos e tiro. Com quadros de observação ajustáveis, espaços de ação e facilidades de registro, suporta bibliotecas populares de RL profundo como Stable Baselines e RLlib, permitindo acompanhamento claro de desempenho e reprodutibilidade entre experimentos.