Un marco de código abierto basado en múltiples agentes con aprendizaje por refuerzo para el control cooperativo de vehículos autónomos en escenarios de tráfico.
AutoDRIVE Cooperative MARL es un marco de código abierto diseñado para entrenar y desplegar políticas de aprendizaje por refuerzo multiactores cooperativos para tareas de conducción autónoma. Se integra con simuladores realistas para modelar escenarios de tráfico como intersecciones, formación de convoy en autopistas y escenarios de fusión. El marco implementa entrenamiento centralizado con ejecución descentralizada, permitiendo que los vehículos aprendan políticas compartidas que maximicen la eficiencia y seguridad del tráfico global. Los usuarios pueden configurar parámetros del entorno, escoger algoritmos MARL de referencia, visualizar el progreso del entrenamiento y evaluar la coordinación de los agentes.
Características principales de AutoDRIVE Cooperative MARL
Entrenamiento centralizado con ejecución descentralizada
PommerLearn permite a investigadores y desarrolladores entrenar bots RL multi-agente en el entorno de juego Pommerman. Incluye implementaciones listas para usar de algoritmos populares (PPO, DQN), archivos de configuración flexibles para hiperparámetros, registro automático y visualización de métricas de entrenamiento, guardado de modelos y scripts de evaluación. Su arquitectura modular facilita la extensión con nuevos algoritmos, la personalización de entornos y la integración con bibliotecas ML estándar como PyTorch.
NavGround Learning proporciona una caja de herramientas completa para desarrollar y evaluar agentes de aprendizaje por refuerzo en tareas de navegación. Soporta simulaciones multi-agente, modelado de colisiones, y sensores y actuadores personalizables. Los usuarios pueden elegir entre plantillas de políticas predefinidas o implementar arquitecturas personalizadas, entrenar con algoritmos RL de última generación y visualizar métricas de rendimiento. Su integración con OpenAI Gym y Stable Baselines3 simplifica la gestión de experimentos, mientras que las herramientas de registro y visualización integradas permiten un análisis profundo del comportamiento del agente y la dinámica de entrenamiento.