Novedades обучение с подкреплением para este año

Encuentra herramientas обучение с подкреплением diseñadas para las necesidades modernas de los profesionales.

обучение с подкреплением

  • Gym-Recsys proporciona entornos OpenAI Gym personalizables para entrenamiento y evaluación escalable de agentes de recomendación mediante aprendizaje por refuerzo
    0
    0
    ¿Qué es Gym-Recsys?
    Gym-Recsys es una caja de herramientas que envuelve tareas de recomendación en entornos OpenAI Gym, permitiendo que algoritmos de aprendizaje por refuerzo interactúen paso a paso con matrices de usuario-ítem simuladas. Proporciona generadores de comportamiento de usuario sintético, soporta cargar conjuntos de datos populares y entrega métricas estándar como Precision@K y NDCG. Los usuarios pueden personalizar funciones de recompensa, modelos de usuario y pools de ítems para experimentar con diferentes estrategias de recomendación basadas en RL de manera reproducible.
  • FlowRL AI permite la personalización de UI en tiempo real basada en métricas, utilizando aprendizaje por refuerzo.
    0
    0
    ¿Qué es flowRL?
    FlowRL AI es una plataforma poderosa que brinda personalización de UI en tiempo real utilizando aprendizaje por refuerzo. Al adaptar la interfaz de usuario para satisfacer las necesidades y preferencias individuales, FlowRL impulsa mejoras significativas en las métricas clave del negocio. La plataforma está diseñada para ajustar dinámicamente los elementos de la UI según datos en vivo, permitiendo a las empresas ofrecer experiencias de usuario altamente personalizadas que aumentan el compromiso y las tasas de conversión.
  • Una colección de entornos de mundos en cuadrícula personalizables compatibles con OpenAI Gym para el desarrollo y pruebas de algoritmos de aprendizaje por refuerzo.
    0
    0
    ¿Qué es GridWorldEnvs?
    GridWorldEnvs ofrece una suite completa de entornos de mundos en cuadrícula para apoyar el diseño, prueba y evaluación de sistemas de aprendizaje por refuerzo y multi-agentes. Los usuarios pueden configurar fácilmente dimensiones de la cuadrícula, posiciones iniciales de los agentes, ubicaciones de objetivos, obstáculos, estructuras de recompensas y espacios de acción. La biblioteca incluye plantillas listas para usar como navegación clásica, evitación de obstáculos y tareas cooperativas, además de permitir la definición de escenarios personalizados mediante JSON o clases en Python. Integración fluida con la API de OpenAI Gym permite aplicar algoritmos RL estándar directamente. Además, soporta experimentos con un solo agente o múltiples agentes, herramientas de registro y visualización para seguir el rendimiento de los agentes.
  • gym-fx proporciona un entorno OpenAI Gym personalizable para entrenar y evaluar agentes de aprendizaje por refuerzo en estrategias de trading en Forex.
    0
    0
    ¿Qué es gym-fx?
    gym-fx es una biblioteca de Python de código abierto que implementa un entorno simulado de trading en Forex usando la interfaz OpenAI Gym. Ofrece soporte para múltiples pares de divisas, integración de flujos de precios históricos, indicadores técnicos y funciones de recompensa completamente personalizables. Al proporcionar una API estandarizada, gym-fx simplifica el benchmarking y el desarrollo de algoritmos de aprendizaje por refuerzo para trading algorítmico. Los usuarios pueden configurar el deslizamiento de mercado, costos de transacción y espacios de observación para imitar de cerca escenarios de trading en vivo, facilitando el desarrollo y evaluación de estrategias robustas.
  • gym-llm ofrece entornos estilo gym para evaluar y entrenar agentes LLM en tareas conversacionales y de toma de decisiones.
    0
    0
    ¿Qué es gym-llm?
    gym-llm amplía el ecosistema OpenAI Gym definiendo entornos textuales donde los agentes LLM interactúan mediante indicaciones y acciones. Cada entorno sigue las convenciones de step, reset y render de Gym, emitiendo observaciones en forma de texto y aceptando respuestas generadas por modelos como acciones. Los desarrolladores pueden crear tareas personalizadas especificando plantillas de indicaciones, cálculos de recompensa y condiciones de terminación, habilitando benchmarks sofisticados de toma de decisiones y diálogos. La integración con librerías RL, herramientas de registro y métricas de evaluación configurables facilita experimentos completos. Ya sea evaluando habilidades de resolución de puzzles, gestión de diálogos, o navegación en tareas estructuradas, gym-llm ofrece un marco estandarizado y reproducible para investigación y desarrollo de agentes lingüísticos avanzados.
  • Un entorno de OpenAI Gym basado en Python que ofrece mundos de cuadrícula multicámara personalizables para la investigación sobre navegación y exploración de agentes de aprendizaje por refuerzo.
    0
    0
    ¿Qué es gym-multigrid?
    gym-multigrid ofrece una serie de entornos en cuadrícula personalizables diseñados para tareas de navegación y exploración en múltiples habitaciones en aprendizaje por refuerzo. Cada entorno consiste en habitaciones interconectadas pobladas de objetos, llaves, puertas y obstáculos. Los usuarios pueden ajustar programáticamente el tamaño de la cuadrícula, las configuraciones de las habitaciones y la colocación de objetos. La biblioteca soporta modos de observación completa o parcial, ofreciendo representaciones del estado en RGB o matriz. Las acciones incluyen movimiento, interacción con objetos y manipulación de puertas. Al integrarlo como entorno de Gym, los investigadores pueden aprovechar cualquier agente compatible con Gym para entrenar y evaluar algoritmos en tareas como rompecabezas de llaves y puertas, recuperación de objetos y planificación jerárquica. El diseño modular y las dependencias mínimas de gym-multigrid lo hacen ideal para evaluar nuevas estrategias de IA.
  • HFO_DQN es un marco de aprendizaje por refuerzo que aplica Deep Q-Network para entrenar agentes de fútbol en el entorno RoboCup Half Field Offense.
    0
    0
    ¿Qué es HFO_DQN?
    HFO_DQN combina Python y TensorFlow para ofrecer un pipeline completo para entrenar agentes de fútbol usando Deep Q-Networks. Los usuarios pueden clonar el repositorio, instalar dependencias incluyendo el simulador HFO y bibliotecas Python, y configurar los parámetros de entrenamiento en archivos YAML. El marco implementa reproducción de experiencias, actualizaciones del red objetivo, exploración epsilon-greedy y modelado de recompensas adaptado al dominio de ofensiva de medio campo. Incluye scripts para entrenamiento de agentes, registro de rendimiento, partidas de evaluación y visualización de resultados. La estructura modular permite integrar arquitecturas de redes neuronales personalizadas, algoritmos RL alternativos y estrategias de coordinación multiagente. Las salidas incluyen modelos entrenados, métricas de rendimiento y visualizaciones del comportamiento, facilitando investigaciones en aprendizaje por refuerzo y sistemas multiagente.
  • Jason-RL equipa los agentes Jason BDI con aprendizaje por refuerzo, permitiendo decisiones adaptativas basadas en Q-learning y SARSA a través de la experiencia de recompensas.
    0
    0
    ¿Qué es jason-RL?
    Jason-RL añade una capa de aprendizaje por refuerzo al marco multiagente de Jason, permitiendo que los agentes AgentSpeak BDI aprendan políticas de selección de acciones mediante retroalimentación de recompensas. Implementa algoritmos Q-learning y SARSA, soporta la configuración de parámetros de aprendizaje (tasa de aprendizaje, factor de descuento, estrategia de exploración) y registra métricas de entrenamiento. Al definir funciones de recompensa en los planes de agentes y ejecutar simulaciones, los desarrolladores pueden observar cómo los agentes mejoran su toma de decisiones con el tiempo y se adaptan a entornos cambiantes sin codificación manual de políticas.
  • MARFT es una caja de herramientas de código abierto para ajuste fino de agentes múltiples en aprendizaje por refuerzo (RL) para flujos de trabajo de IA colaborativa y optimización de modelos de lenguaje.
    0
    0
    ¿Qué es MARFT?
    MARFT es un LLM basado en Python que permite experimentos reproducibles y prototipado rápido de sistemas de IA colaborativos.
  • Una plataforma RL de código abierto inspirada en Minecraft que permite a agentes AI aprender tareas complejas en entornos sandbox 3D personalizables.
    0
    0
    ¿Qué es MineLand?
    MineLand proporciona un entorno sandbox 3D flexible inspirado en Minecraft para entrenar agentes de aprendizaje por refuerzo. Cuenta con APIs compatibles con Gym para una integración fluida con bibliotecas RL existentes como Stable Baselines, RLlib, y implementaciones personalizadas. Los usuarios tienen acceso a una biblioteca de tareas, incluyendo recolección de recursos, navegación y desafíos de construcción, cada una con dificultades y estructuras de recompensa configurables. Renderizado en tiempo real, escenarios multi-agente y modos sin interfaz permiten entrenamiento escalable y benchmarking. Los desarrolladores pueden diseñar nuevos mapas, definir funciones de recompensa personalizadas y agregar sensores o controles adicionales. La base de código open-source de MineLand fomenta la investigación reproducible, el desarrollo colaborativo y la creación rápida de prototipos de agentes IA en mundos virtuales complejos.
  • Implementación simplificada en PyTorch de AlphaStar, que permite entrenar un agente RL para StarCraft II con arquitectura de red modular y auto-juego.
    0
    0
    ¿Qué es mini-AlphaStar?
    mini-AlphaStar desmitifica la arquitectura compleja de AlphaStar ofreciendo un marco accesible y de código abierto en PyTorch para el desarrollo de IA en StarCraft II. Incluye codificadores de características espaciales para entradas de pantalla y minimapa, procesamiento de características no espaciales, módulos de memoria LSTM, y redes separadas de política y valor para la selección de acciones y evaluación del estado. Utiliza aprendizaje por imitación para comenzar y aprendizaje por refuerzo con auto-juego para afinar, soporta wrappers de entorno compatibles con pysc2, registro con TensorBoard y hiperparámetros configurables. Investigadores y estudiantes pueden generar conjuntos de datos a partir de partidas humanas, entrenar modelos en escenarios personalizados, evaluar el rendimiento del agente y visualizar curvas de aprendizaje. La base modular del código facilita experimentar con variantes de redes, programas de entrenamiento y configuraciones multi-agente. Diseñado para educación y prototipado, no para despliegue en producción.
  • Un entorno basado en Unity ML-Agents para entrenar tareas cooperativas de inspección multi-agente en escenarios virtuales 3D personalizables.
    0
    0
    ¿Qué es Multi-Agent Inspection Simulation?
    La Simulación de Inspección Multi-Agente proporciona un marco completo para simular y entrenar múltiples agentes autónomos para realizar tareas de inspección en cooperación dentro de entornos Unity 3D. Se integra con el conjunto de herramientas Unity ML-Agents, ofreciendo escenas configurables con objetivos de inspección, funciones de recompensa ajustables y parámetros de comportamiento de los agentes. Los investigadores pueden crear entornos personalizados, definir el número de agentes y establecer planes de entrenamiento mediante APIs en Python. El paquete soporta sesiones de entrenamiento en paralelo, registro en TensorBoard y observaciones personalizables, incluyendo raycasts, feeds de cámaras y datos de posición. Al ajustar hiperparámetros y la complejidad del entorno, los usuarios pueden realizar benchmarks de algoritmos de aprendizaje por refuerzo en métricas de cobertura, eficiencia y coordinación. La base de código de código abierto fomenta extensiones para prototipado de robótica, investigación en IA cooperativa y demostraciones educativas en sistemas multi-agente.
  • Entorno Python de código abierto para entrenar agentes IA cooperativos para vigilar y detectar intrusos en escenarios basados en una cuadrícula.
    0
    0
    ¿Qué es Multi-Agent Surveillance?
    Multi-Agent Surveillance ofrece un marco de simulación flexible donde múltiples agentes IA actúan como depredadores o evasores en un mundo de cuadrícula discreto. Los usuarios pueden configurar parámetros del entorno como dimensiones de la cuadrícula, número de agentes, radios de detección y estructuras de recompensa. El repositorio incluye clases en Python para comportamiento de agentes, scripts de generación de escenarios, visualización incorporada mediante matplotlib y una integración fluida con bibliotecas populares de aprendizaje por refuerzo. Esto facilita la creación de referencias para la coordinación multi-agente, desarrollo de estrategias de vigilancia personalizadas y realización de experimentos reproducibles.
  • Un entorno de simulación en Python de código abierto para entrenar el control cooperativo de enjambres de drones mediante aprendizaje por refuerzo multiagente.
    0
    0
    ¿Qué es Multi-Agent Drone Environment?
    El entorno de drones multiagente es un paquete de Python que ofrece una simulación multiagente configurable para enjambres de UAV, basado en OpenAI Gym y PyBullet. Los usuarios definen múltiples agentes drones con modelos cinemáticos y dinámicos para explorar tareas cooperativas como vuelo en formación, seguimiento de objetivos y evitación de obstáculos. El entorno soporta configuración modular de tareas, detección de colisiones realista y emulación de sensores, además de permitir funciones de recompensa y políticas descentralizadas personalizadas. Los desarrolladores pueden integrar sus propios algoritmos de aprendizaje por refuerzo, evaluar el rendimiento bajo diferentes escenarios y visualizar en tiempo real las trayectorias y métricas de los agentes. Su diseño de código abierto fomenta las contribuciones comunitarias, siendo ideal para investigación, enseñanza y prototipado avanzado de soluciones de control multiagente.
  • Coordina múltiples agentes autónomos de recolecta de residuos utilizando aprendizaje por refuerzo para optimizar rutas de recolección de manera eficiente.
    0
    0
    ¿Qué es Multi-Agent Autonomous Waste Collection System?
    El Sistema de Recolección Autónoma de Residuos Multiagente es una plataforma basada en investigación que emplea aprendizaje por refuerzo multiagente para entrenar robots recolectores de residuos que colaboran en la planificación de rutas. Los agentes aprenden a evitar coberturas redundantes, minimizar la distancia de viaje y responder a patrones dinámicos de generación de residuos. Desarrollado en Python, el sistema integra un entorno de simulación para probar y perfeccionar políticas antes del despliegue en el mundo real. Los usuarios pueden configurar mapas, puntos de entrega, sensores de los agentes y estructuras de recompensas para adaptar el comportamiento a áreas urbanas específicas o restricciones operativas.
  • Marco de trabajo de IA de agentes múltiples de código abierto para el seguimiento colaborativo de objetos en videos utilizando aprendizaje profundo y toma de decisiones reforzada.
    0
    0
    ¿Qué es Multi-Agent Visual Tracking?
    El Seguimiento Visual Multi-Agente implementa un sistema de seguimiento distribuido compuesto por agentes inteligentes que comunican para mejorar la precisión y robustez en el seguimiento de objetos en video. Los agentes ejecutan redes neuronales convolucionales para detección, comparten observaciones para manejar oclusiones y ajustan los parámetros de seguimiento mediante aprendizaje por refuerzo. Compatible con conjuntos de datos de videos populares, soporta entrenamiento e inferencia en tiempo real. Los usuarios pueden integrarlo fácilmente en flujos existentes y extender comportamientos de agentes para aplicaciones personalizadas.
  • Un marco de trabajo de código abierto para aprendizaje por refuerzo multiagente que permite control de agentes a nivel bruto y coordinación en StarCraft II a través de PySC2.
    0
    0
    ¿Qué es MultiAgent-Systems-StarCraft2-PySC2-Raw?
    MultiAgent-Systems-StarCraft2-PySC2-Raw ofrece un conjunto completo de herramientas para desarrollar, entrenar y evaluar múltiples agentes de IA en StarCraft II. Expone controles a bajo nivel para movimiento de unidades, objetivos y habilidades, permitiendo además una configuración flexible de recompensas y escenarios. Los usuarios pueden integrar fácilmente arquitecturas neuronales personalizadas, definir estrategias de coordinación en equipo y grabar métricas. Basado en PySC2, soporta entrenamiento paralelo, creación de puntos de control y visualización, siendo ideal para avanzar en la investigación en aprendizaje por refuerzo con múltiples agentes tanto cooperativos como adversarios.
  • Un marco de trabajo de aprendizaje por refuerzo multiagente basado en Python para desarrollar y simular entornos de agentes AI cooperativos y competitivos.
    0
    0
    ¿Qué es Multiagent_system?
    Multiagent_system ofrece un kit completo para la construcción y gestión de entornos multiagente. Los usuarios pueden definir escenarios de simulación personalizados, especificar comportamientos de agentes y aprovechar algoritmos pre-implementados como DQN, PPO y MADDPG. El marco soporta entrenamientos sincrónicos y asincrónicos, permitiendo que los agentes interactúen en paralelo o en configuraciones por turnos. Los módulos de comunicación integrados facilitan el paso de mensajes entre agentes para estrategias cooperativas. La configuración de experimentos se agiliza mediante archivos YAML y los resultados se registran automáticamente en CSV o TensorBoard. Los scripts de visualización ayudan a interpretar trayectorias de agentes, evolución de recompensas y patrones de comunicación. Diseñado para flujos de trabajo de investigación y producción, Multiagent_system escala de manera transparente desde prototipos en una sola máquina hasta entrenamiento distribuido en clústeres GPU.
  • Un marco de simulación multiagente basado en Python que permite la colaboración, competencia y entrenamiento simultáneos de agentes en entornos personalizables.
    0
    0
    ¿Qué es MultiAgentes?
    MultiAgentes ofrece una arquitectura modular para definir entornos y agentes, soportando interacciones multiagente síncronas y asíncronas. Incluye clases base para entornos y agentes, escenarios predefinidos para tareas cooperativas y competitivas, herramientas para personalizar funciones de recompensa y APIs para comunicación entre agentes y compartición de observaciones. Utilidades de visualización permiten monitorización en tiempo real de comportamientos de agentes, mientras que módulos de registro guardan métricas de rendimiento para análisis. El marco se integra perfectamente con bibliotecas RL compatibles con Gym, permitiendo entrenar agentes con algoritmos existentes. MultiAgentes está diseñado para extensibilidad, permitiendo a desarrolladores agregar nuevos modelos de entornos, tipos de agentes y protocolos de comunicación para diversas aplicaciones de investigación y educativas.
  • Framework de código abierto que permite implementar y evaluar estrategias de IA multiagente en un entorno clásico de juego Pacman.
    0
    0
    ¿Qué es MultiAgentPacman?
    MultiAgentPacman ofrece un entorno de juego en Python donde los usuarios pueden implementar, visualizar y comparar múltiples agentes de IA en el dominio Pacman. Soporta algoritmos de búsqueda adversarial como minimax, expectimax, poda alfa-beta, así como agentes personalizados basados en aprendizaje por refuerzo o heurísticas. El marco incluye una interfaz gráfica sencilla, controles en línea de comandos y utilidades para registrar estadísticas de juego y comparar el rendimiento de los agentes en escenarios competitivos o cooperativos.
Destacados