강화 학습

Simple Playgrounds
Une bibliothèque Python légère pour créer des environnements de grille 2D personnalisables pour former et tester des agents d'apprentissage par renforcement.

0


0
Visiter l'IA
Qu'est-ce que Simple Playgrounds ?
Simple Playgrounds fournit une plateforme modulaire pour construire des environnements interactifs en grille 2D où des agents peuvent naviguer dans des labyrinthes, interagir avec des objets et accomplir des tâches. Les utilisateurs définissent la disposition de l'environnement, le comportement des objets et les fonctions de récompense via des scripts YAML ou Python simples. Le moteur de rendu Pygame intégré fournit une visualisation en temps réel, tandis qu'une API basée sur des pas garantit une intégration fluide avec des bibliothèques de RL comme Stable Baselines3. Avec le support pour des configurations multi-agent, la détection de collisions et des paramètres physiques personnalisables, Simple Playgrounds facilite les prototypes, le benchmarking et les démonstrations éducatives d'algorithmes IA.
Fonctionnalités principales de Simple Playgrounds
RL-Agents
Bibliothèque open-source PyTorch fournissant des implémentations modulaires d'agents d'apprentissage par renforcement tels que DQN, PPO, SAC et plus encore.

0


0
Visiter l'IA
Qu'est-ce que RL-Agents ?
RL-Agents est un framework d'apprentissage par renforcement de niveau recherche construit sur PyTorch qui regroupe des algorithmes RL populaires dans les méthodes basées sur la valeur, la politique et l'acteur-critique. La bibliothèque dispose d'une API d'agent modulaire, d'une accélération GPU, d'une intégration transparente avec OpenAI Gym et d'outils intégrés de journalisation et de visualisation. Les utilisateurs peuvent configurerles hyperparamètres, personnaliser les boucles d'entraînement et mesurer les performances avec quelques lignes de code, rendant RL-Agents idéal pour la recherche académique, le prototypage et l'expérimentation industrielle.
Fonctionnalités principales de RL-Agents
RL Collision Avoidance
Un cadre d'apprentissage par renforcement permettant aux robots autonomes de naviguer et d'éviter les collisions dans des environnements multi-agents.

0


0
Visiter l'IA
Qu'est-ce que RL Collision Avoidance ?
RL Collision Avoidance offre une pipeline complète pour développer, former et déployer des politiques d’évitement de collision multi-robots. Il propose une série de scénarios de simulation compatibles Gym où les agents apprennent une navigation sans collision à l’aide d’algorithmes d'apprentissage par renforcement. Les utilisateurs peuvent personnaliser les paramètres de l’environnement, exploiter l’accélération GPU pour un entraînement plus rapide et exporter les politiques apprises. Le cadre intègre également ROS pour des tests sur le terrain, supporte des modèles pré-entraînés pour une évaluation immédiate et propose des outils pour visualiser les trajectoires des agents et les métriques de performance.
Fonctionnalités principales de RL Collision Avoidance
dead-simple-self-learning
Le apprentissage automatique autodidacte simple est une bibliothèque Python fournissant des API simples pour construire, entraîner et évaluer des agents d'apprentissage par renforcement.

0


0
Visiter l'IA
Qu'est-ce que dead-simple-self-learning ?
Le apprentissage automatique autodidacte simple offre aux développeurs une approche extrêmement simple pour créer et entraîner des agents d'apprentissage par renforcement en Python. Le framework abstrait les composants clés du RL, tels que les wrappers d'environnement, les modules de politique et les buffers d'expérience, en interfaces concises. Les utilisateurs peuvent rapidement initialiser les environnements, définir des politiques personnalisées avec des backends familiers comme PyTorch ou TensorFlow, et exécuter des boucles d’entraînement avec journalisation et sauvegarde intégrées. La bibliothèque supporte les algorithmes on-policy et off-policy, permettant une expérimentation flexible avec Q-learning, les gradients de politique et les méthodes acteur-critique. En réduisant le code boilerplate, le apprentissage automatique autodidacte simple permet aux praticiens, éducateurs et chercheurs de prototype des algorithmes, tester des hypothèses et visualiser la performance de l'agent avec une configuration minimale. Sa conception modulaire facilite également l'intégration avec les stacks ML existants et les environnements personnalisés.
Fonctionnalités principales de dead-simple-self-learning
Avantages et inconvénients de dead-simple-self-learning
SoccerAgent
SoccerAgent utilise l'apprentissage par renforcement multi-agent pour entraîner des joueurs IA pour des simulations de football réalistes et l'optimisation stratégique.

0


0
Visiter l'IA
Qu'est-ce que SoccerAgent ?
SoccerAgent est un cadre IA spécialisé conçu pour développer et entraîner des agents de football autonomes en utilisant des techniques avancées d'apprentissage par renforcement multi-agent (MARL). Il simule des matchs de football réalistes dans des environnements 2D ou 3D, offrant des outils pour définir des fonctions de récompense, personnaliser les attributs des joueurs et mettre en œuvre des stratégies tactiques. Les utilisateurs peuvent intégrer des algorithmes RL courants (tels que PPO, DDPG et MADDPG) via des modules intégrés, suivre la progression de l'entraînement via des tableaux de bord et visualiser le comportement des agents en temps réel. Le cadre prend en charge l'entraînement basé sur des scénarios pour l'attaque, la défense et la coordination. Avec une base de code extensible et une documentation détaillée, SoccerAgent permet aux chercheurs et développeurs d'analyser la dynamique d'équipe et d'affiner leurs stratégies de jeu basées sur l'IA pour des projets académiques et commerciaux.
Fonctionnalités principales de SoccerAgent
Avantages et inconvénients de SoccerAgent
StarCraft II Reinforcement Learning Agent
Un agent d'apprentissage par renforcement en source ouverte utilisant PPO pour entraîner et jouer à StarCraft II via l'environnement PySC2 de DeepMind.

0


0
Visiter l'IA
Qu'est-ce que StarCraft II Reinforcement Learning Agent ?
Ce dépôt fournit un cadre complet d'apprentissage par renforcement pour la recherche sur le gameplay de StarCraft II. L'agent principal utilise la Proximal Policy Optimization (PPO) pour apprendre des réseaux de politiques interprétant les données d'observation de l'environnement PySC2 et générant des actions précises dans le jeu. Les développeurs peuvent configurer les couches de réseaux neuronaux, la reformulation des récompenses et les plannings d'entraînement pour optimiser la performance. Le système supporte la collecte d'échantillons en multiprocessing pour plus d'efficacité, des outils de journalisation pour suivre les courbes d'entraînement, et des scripts d'évaluation pour tester les politiques entraînées contre des adversaires scriptés ou IA intégrée. Le code est écrit en Python et utilise TensorFlow pour la définition et l'optimisation des modèles. Les utilisateurs peuvent étendre des composants tels que les fonctions de récompense personnalisées, le pré-traitement des états ou les architectures de réseaux pour répondre à leurs objectifs de recherche spécifiques.
Fonctionnalités principales de StarCraft II Reinforcement Learning Agent
TexasHoldemAgent
Un agent IA basé sur le RL qui apprend des stratégies de pari optimales pour jouer efficacement au poker Texas Hold'em limit heads-up.

0


0
Visiter l'IA
Qu'est-ce que TexasHoldemAgent ?
TexasHoldemAgent fournit un environnement modulaire basé sur Python pour entraîner, évaluer et déployer un joueur de poker alimenté par IA pour le Texas Hold’em limit heads-up. Il intègre un moteur de simulation personnalisé avec des algorithmes d'apprentissage par renforcement profond, dont DQN, pour une amélioration itérative de la politique. Les capacités clés incluent l'encodage de l'état de la main, la définition de l'espace d'action (fold, call, raise), la modélisation de la récompense et l'évaluation des décisions en temps réel. Les utilisateurs peuvent personnaliser les paramètres d'apprentissage, utiliser l'accélération CPU/GPU, suivre l'avancement de la formation et charger ou sauvegarder des modèles entraînés. Le cadre supporte des simulations par lot pour tester diverses stratégies, générer des métriques de performance et visualiser les taux de réussite, permettant aux chercheurs, développeurs et amateurs de poker d'expérimenter avec des stratégies de jeu pilotées par l'IA.
Fonctionnalités principales de TexasHoldemAgent
Text-to-Reward
Text-to-Reward apprend des modèles de récompense généraux à partir d'instructions en langage naturel pour guider efficacement les agents RL.

0


0
Visiter l'IA
Qu'est-ce que Text-to-Reward ?
Text-to-Reward fournit une pipeline pour entraîner des modèles de récompense qui transforment des descriptions de tâches basées sur du texte ou des retours en valeurs de récompense scalaires pour les agents RL. En utilisant des architectures basées sur Transformer et un fine-tuning sur des données de préférences humaines, le cadre apprend automatiquement à interpréter les instructions en langage naturel comme signaux de récompense. Les utilisateurs peuvent définir des tâches arbitraires via des invites textuelles, entraîner le modèle, puis incorporer la fonction de récompense apprise dans n'importe quel algorithme RL. Cette approche élimine le façonnage manuel des récompenses, augmente l'efficacité des échantillons et permet aux agents de suivre des instructions complexes en plusieurs étapes dans des environnements simulés ou réels.
Fonctionnalités principales de Text-to-Reward
Avantages et inconvénients de Text-to-Reward
uAgents
uAgents offre un cadre modulaire pour la création d'agents IA autonomes décentralisés capables de communication peer-to-peer, de coordination et d'apprentissage.

0


0
Visiter l'IA
Qu'est-ce que uAgents ?
uAgents est un framework JavaScript modulaire qui permet aux développeurs de construire des agents IA autonomes et décentralisés capables de découvrir des pairs, d’échanger des messages, de collaborer sur des tâches et de s’adapter par l’apprentissage. Les agents communiquent via des protocoles de gossip basés sur libp2p, enregistrent des capacités via des registres on-chain et négocient des accords de niveau de service à l’aide de smart contracts. La bibliothèque centrale gère les événements du cycle de vie des agents, le routage des messages et les comportements extensibles tels que l'apprentissage par renforcement et l'allocation de tâches basée sur le marché. Grâce à des plugins personnalisables, uAgents peut s’intégrer au ledger de Fetch.ai, aux API externes et aux réseaux d’oracles, permettant aux agents d’effectuer des actions du monde réel, de collecter des données et de prendre des décisions dans des environnements distribués sans orchestration centralisée.
Fonctionnalités principales de uAgents
Vanilla Agents
Vanilla Agents fournit des implémentations prêtes à l'emploi d'agents RL DQN, PPO et A2C avec des pipelines de formation personnalisables.

0


0
Visiter l'IA
Qu'est-ce que Vanilla Agents ?
Vanilla Agents est un cadre léger basé sur PyTorch qui fournit des implémentations modulaires et extensibles d'agents d'apprentissage par renforcement de base. Il supporte des algorithmes comme DQN, Double DQN, PPO et A2C, avec des wrappers d'environnement adaptables compatibles avec OpenAI Gym. Les utilisateurs peuvent configurer les hyperparamètres, enregistrer les métriques d'entraînement, sauvegarder les points de contrôle et visualiser les courbes d'apprentissage. La base de code est organisée pour la clarté, ce qui le rend idéal pour le prototypage de recherche, un usage éducatif et la mise en référence de nouvelles idées en RL.
Fonctionnalités principales de Vanilla Agents
VMAS
VMAS est un cadre MARL modulaire permettant une simulation et un entraînement de environnements multi-agents accélérés par GPU avec des algorithmes intégrés.

0


0
Visiter l'IA
Qu'est-ce que VMAS ?
VMAS est une boîte à outils complète pour construire et entraîner des systèmes multi-agents utilisant l'apprentissage par renforcement profond. Il supporte la simulation parallèle sur GPU de centaines d'instances d'environnement, permettant une collecte de données à haut débit et un entraînement évolutif. VMAS inclut des implémentations des algorithmes MARL populaires tels que PPO, MADDPG, QMIX et COMA, avec des interfaces modulaires pour la politique et l'environnement pour une prototypage rapide. Le cadre facilite la formation centralisée avec exécution décentralisée (CTDE), propose une personnalisation du façonnage des récompenses, des espaces d'observation et des hooks de rappel pour la journalisation et la visualisation. Avec sa conception modulaire, VMAS s'intègre parfaitement avec les modèles PyTorch et les environnements externes, ce qui en fait un choix idéal pour la recherche dans les tâches coopératives, compétitives et à motivations mixtes en robotique, gestion du trafic, allocation des ressources et scénarios d'IA de jeux.
Fonctionnalités principales de VMAS
YGO-Agent
Un agent RL open-source pour les duels Yu-Gi-Oh, offrant simulation d'environnement, entraînement de politique et optimisation de stratégie.

0


0
Visiter l'IA
Qu'est-ce que YGO-Agent ?
Le cadre YGO-Agent permet aux chercheurs et aux passionnés de développer des bots IA qui jouent au jeu de cartes Yu-Gi-Oh en utilisant l'apprentissage par renforcement. Il enveloppe le simulateur de jeu YGOPRO dans un environnement compatible OpenAI Gym, définissant des représentations d'état telles que la main, le terrain et les points de vie, ainsi que des représentations d'action incluant l'invocation, l'activation de sorts/pièges et l'attaque. Les récompenses sont basées sur les résultats de victoire/défaite, les dégâts infligés et la progression du jeu. L'architecture de l'agent utilise PyTorch pour implémenter DQN, avec des options pour des architectures de réseau personnalisées, la rejouabilité d'expérience et l'exploration epsilon-greedy. Les modules de journalisation enregistrent les courbes d'entraînement, les taux de victoire et les logs de mouvements détaillés pour l'analyse. Le cadre est modulaire, permettant aux utilisateurs de remplacer ou d'étendre des composants tels que la fonction de récompense ou l'espace d'action.
Fonctionnalités principales de YGO-Agent
A-Mem
A-Mem fournit aux agents IA un module de mémoire offrant un stockage et une récupération mémoire épisodique, à court terme et à long terme.

0


0
Visiter l'IA
Qu'est-ce que A-Mem ?
A-Mem est conçu pour s'intégrer parfaitement aux frameworks d'IA basés sur Python, offrant trois modules de mémoire distincts : mémoire épisodique pour le contexte de chaque épisode, mémoire à court terme pour les actions passées immédiates et mémoire à long terme pour une accumulation de connaissances dans le temps. Les développeurs peuvent personnaliser la capacité de mémoire, les politiques de conservation et les backends de sérialisation tels que la mémoire en mémoire ou Redis. La bibliothèque inclut des algorithmes d'indexation efficaces pour récupérer les mémoires pertinentes basées sur la similarité et les fenêtres de contexte. En insérant les gestionnaires de mémoire d'A-Mem dans la boucle perception-action de l'agent, les utilisateurs peuvent stocker des observations, des actions et des résultats, puis interroger les expériences passées pour éclairer les décisions actuelles. Cette conception modulaire facilite l’expérimentation rapide en apprentissage par renforcement, IA conversationnelle, navigation robotique et autres tâches pilotées par un agent nécessitant une conscience du contexte et un raisonnement temporel.
Fonctionnalités principales de A-Mem
GYM_XPLANE_ML
Relie le simulateur de vol X-Plane à OpenAI Gym pour former des agents d'apprentissage par renforcement pour un contrôle réaliste des avions via Python.

0


0
Visiter l'IA
Qu'est-ce que GYM_XPLANE_ML ?
GYM_XPLANE_ML encapsule le simulateur de vol X-Plane en tant qu'environnement OpenAI Gym, exposant la commande de l'accélérateur, de l'élévateur, de l'aileron et du gouvernail comme espaces d'action et des paramètres de vol tels que l'altitude, la vitesse et l'orientation comme observations. Les utilisateurs peuvent programmer des flux de travail d'entraînement en Python, choisir des scénarios prédéfinis ou personnaliser des waypoints, des conditions météorologiques et des modèles d'avion. La bibliothèque gère la communication à faible latence avec X-Plane, exécute des épisodes en mode synchrone, enregistre les performances et supporte le rendu en temps réel pour le débogage. Elle permet le développement itératif d'autopilotes basés sur ML et d'algorithmes RL expérimentaux dans un environnement de vol haute fidélité.
Fonctionnalités principales de GYM_XPLANE_ML
Acme
Acme est un cadre d'apprentissage par renforcement modulaire offrant des composants d'agents réutilisables et des pipelines d'entraînement distribués efficaces.

0


0
Visiter l'IA
Qu'est-ce que Acme ?
Acme est un framework basé sur Python qui simplifie le développement et l'évaluation d'agents d'apprentissage par renforcement. Il propose une collection d'implémentations d'agents préconstruites (par exemple, DQN, PPO, SAC), des enveloppes d'environnement, des tampons de répétition et des moteurs d'exécution distribués. Les chercheurs peuvent combiner et ajuster les composants pour prototyper de nouveaux algorithmes, surveiller les métriques d'entraînement avec la journalisation intégrée et exploiter des pipelines distribués évolutifs pour de large experiments. Acme s'intègre avec TensorFlow et JAX, prend en charge des environnements personnalisés via OpenAI Gym interfaces, et inclut des utilitaires pour la sauvegarde, l'évaluation et la configuration des hyperparamètres.
Fonctionnalités principales de Acme
AI-Agentic Machine Translation
Un cadre d'agent IA orchestrant plusieurs agents de traduction pour générer, affiner et évaluer les traductions automatiques de manière collaborative.

0


0
Visiter l'IA
Qu'est-ce que AI-Agentic Machine Translation ?
La traduction automatique machine agentique est un cadre open-source conçu pour la recherche et le développement en traduction automatique. Il orchestre trois agents principaux — un générateur, un évaluateur et un affinateur — pour produire, évaluer et affiner collaborativement les traductions. Basé sur PyTorch et des modèles de transformeurs, le système supporte la pré-formation supervisée, l'optimisation par apprentissage par renforcement, et des politiques d'agents configurables. Les utilisateurs peuvent effectuer des benchmarks sur des jeux de données standard, suivre les scores BLEU, et étendre le pipeline avec des agents ou fonctions de récompense personnalisés pour explorer la collaboration entre agents dans les tâches de traduction.
Fonctionnalités principales de AI-Agentic Machine Translation
AI Hedge Fund 5zu
AI Hedge Fund 5zu utilise l'apprentissage par renforcement pour automatiser la gestion de portefeuille et optimiser les stratégies de trading.

0


0
Visiter l'IA
Qu'est-ce que AI Hedge Fund 5zu ?
AI Hedge Fund 5zu fournit une pipeline complète pour le trading quantitatif : un environnement personnalisable pour la simulation de plusieurs classes d'actifs, des modules d'agents basés sur l'apprentissage par renforcement, des utilitaires de test rétroactif, une intégration en temps réel des données du marché et des outils de gestion des risques. Les utilisateurs peuvent configurer les sources de données, définir des fonctions de récompense, entraîner des agents sur des données historiques et évaluer les performances selon de principaux indicateurs financiers. Le framework supporte le développement de stratégies modulaires et peut être étendu aux API de courtiers en direct pour déployer des robots de trading en production.
Fonctionnalités principales de AI Hedge Fund 5zu
AI Agents for Rock Paper Scissors
Boîtier d'outils Python open-source offrant une reconnaissance de motifs aléatoire, basée sur des règles, et des agents d'apprentissage par renforcement pour Pierre-Papier-Cierre.

0


0
Visiter l'IA
Qu'est-ce que AI Agents for Rock Paper Scissors ?
Les agents IA pour Pierre-Papier-Ciseaux sont un projet Python open-source démontrant comment construire, entraîner et évaluer différentes stratégies d'IA—jeu aléatoire, reconnaissance de motifs basée sur des règles, et apprentissage par renforcement (Q-learning)—dans le jeu classique Pierre-Papier-Ciseaux. Il fournit des classes d'agents modulaires, un moteur de jeu configurable, une journalisation des performances, et des utilitaires de visualisation. Les utilisateurs peuvent échanger facilement des agents, ajuster les paramètres d'apprentissage, et explorer le comportement de l'IA dans des scénarios compétitifs.
Fonctionnalités principales de AI Agents for Rock Paper Scissors
Ant_racer
Ant_racer est une plateforme virtuelle de poursuite-évasion multi-agents utilisant OpenAI/Gym et Mujoco.

0


0
Visiter l'IA
Qu'est-ce que Ant_racer ?
Ant_racer est une plateforme virtuelle de poursuite-évasion multi-agents qui offre un environnement de jeu pour étudier l'apprentissage par renforcement multi-agents. Construite sur OpenAI Gym et Mujoco, elle permet aux utilisateurs de simuler les interactions entre plusieurs agents autonomes dans des tâches de poursuite et d'évasion. La plateforme prend en charge la mise en œuvre et le test d'algorithmes d'apprentissage par renforcement tels que DDPG dans un environnement physiquement réaliste. Elle est utile aux chercheurs et développeurs intéressés par les comportements multi-agents de l'IA dans des scénarios dynamiques.
Fonctionnalités principales de Ant_racer
Avantages et inconvénients de Ant_racer
Beer Game Environment
Une environnement Python OpenAI Gym simulant la chaîne d'approvisionnement du jeu de la bière pour former et évaluer des agents RL.

0


0
Visiter l'IA
Qu'est-ce que Beer Game Environment ?
L'environnement Beer Game fournit une simulation en temps discret d'une chaîne d'approvisionnement en bière à quatre étapes — détaillant, grossiste, distributeur, fabricant — avec une interface OpenAI Gym. Les agents reçoivent des observations incluant le stock en main, le stock en pipeline et les commandes entrantes, puis produisent des quantités de commande. L'environnement calcule les coûts par étape pour la détention d'inventaire et les retards, et supporte des distributions de demande et des délais de livraison personnalisables. Il s'intègre parfaitement avec des bibliothèques RL populaires comme Stable Baselines3, permettant aux chercheurs et éducateurs de benchmarker et former des algorithmes sur des tâches d'optimisation de la chaîne d'approvisionnement.
Fonctionnalités principales de Beer Game Environment