Innovations en outils 強化學習

Découvrez des solutions 強化學習 révolutionnaires qui transforment votre manière de travailler au quotidien.

強化學習

  • Un environnement Python Pygame pour le développement et le test d'agents de conduite autonome par apprentissage par renforcement sur des pistes personnalisables.
    0
    0
    Qu'est-ce que SelfDrivingCarSimulator ?
    SelfDrivingCarSimulator est un framework Python léger basé sur Pygame qui offre un environnement de conduite 2D pour entraîner des agents de véhicules autonomes à l'aide de l'apprentissage par renforcement. Il supporte des tracés personnalisables, des modèles de capteurs configurables (comme LiDAR et caméra), une visualisation en temps réel et un enregistrement des données pour l'analyse des performances. Les développeurs peuvent intégrer leurs algorithmes RL, ajuster les paramètres physiques, et surveiller des métriques telles que la vitesse, le taux de collision et les fonctions de récompense pour faire évoluer rapidement leurs projets de recherche et éducatifs.
  • Un cadre Python permettant la conception, la simulation et l'apprentissage par renforcement de systèmes multi-agents coopératifs.
    0
    0
    Qu'est-ce que MultiAgentModel ?
    MultiAgentModel fournit une API unifiée pour définir des environnements personnalisés et des classes d'agents pour des scénarios multi-agents. Les développeurs peuvent spécifier les espaces d'observation et d'action, les structures de récompense et les canaux de communication. La prise en charge intégrée d'algorithmes RL populaires comme PPO, DQN et A2C permet un entraînement avec une configuration minimale. Les outils de visualisation en temps réel aident à surveiller les interactions des agents et les métriques de performance. L'architecture modulaire garantit une intégration facile de nouveaux algorithmes et modules personnalisés. Elle inclut également un système de configuration flexible pour l'ajustement des hyperparamètres, des utilitaires de journalisation pour le suivi des expériences, et la compatibilité avec les environnements OpenAI Gym pour une portabilité transparente. Les utilisateurs peuvent collaborer sur des environnements partagés et rejouer des sessions enregistrées pour analyse.
  • Un cadre Python open-source avec des agents IA basés sur Pacman pour implémenter des algorithmes de recherche, adversariaux et d'apprentissage par renforcement.
    0
    0
    Qu'est-ce que Berkeley Pacman Projects ?
    Le dépôt Berkeley Pacman Projects offre une base de code Python modulaire où les utilisateurs construisent et testent des agents IA dans un labyrinthe Pacman. Il guide les apprenants à travers la recherche non informée et informée (DFS, BFS, A*), la recherche multi-agents adversariale (minimax, élagage alpha-bêta), et l'apprentissage par renforcement (Q-learning avec extraction de caractéristiques). Des interfaces graphiques intégrées visualisent le comportement des agents en temps réel, tandis que des cas de test intégrés et un autograder vérifient la correction. En itérant sur les implémentations d'algorithmes, les utilisateurs acquièrent une expérience pratique en exploration de l'espace d'états, conception d'heuristiques, raisonnement adversarial, et apprentissage basé sur les récompenses au sein d'un cadre de jeu unifié.
  • BomberManAI est un agent IA basé sur Python qui navigue et combat de manière autonome dans les environnements de jeu Bomberman en utilisant des algorithmes de recherche.
    0
    0
    Qu'est-ce que BomberManAI ?
    BomberManAI est un agent IA conçu pour jouer automatiquement au jeu classique Bomberman. Développé en Python, il interagit avec un environnement de jeu pour percevoir l’état de la carte, les mouvements disponibles et les positions des adversaires en temps réel. L’algorithme principal combine la recherche A*, la recherche en largeur pour l’analyse de la reachabilité, et une fonction d’évaluation heuristique pour déterminer le meilleur endroit pour poser une bombe et élaborer des stratégies d’évasion. L’agent gère les obstacles dynamiques, les power-ups et plusieurs adversaires sur diverses cartes. Son architecture modulaire permet aux développeurs d’expérimenter avec des heuristiques personnalisées, l’apprentissage par renforcement ou d’autres stratégies de décision. Idéal pour les chercheurs en IA de jeu, les étudiants et les développeurs de bots compétitifs, BomberManAI offre un cadre flexible pour tester et améliorer des agents de jeu autonomes.
  • Framework open-source basé sur PyTorch implémentant l'architecture CommNet pour l'apprentissage par renforcement multi-agent avec communication inter-agent permettant une prise de décision collaborative.
    0
    0
    Qu'est-ce que CommNet ?
    CommNet est une bibliothèque orientée recherche qui implémente l'architecture CommNet, permettant à plusieurs agents de partager des états cachés à chaque étape et d'apprendre à coordonner leurs actions dans des environnements coopératifs. Elle inclut des définitions de modèles PyTorch, des scripts d'entraînement et d'évaluation, des wrappers d'environnement pour OpenAI Gym et des utilitaires pour personnaliser les canaux de communication, le nombre d'agents et la profondeur du réseau. Chercheurs et développeurs peuvent utiliser CommNet pour prototyper et benchmarker des stratégies de communication inter-agent sur des tâches de navigation, de poursuite–évasion et de collecte de ressources.
  • Une bibliothèque d'environnement d'apprentissage par renforcement personnalisable pour l'évaluation des agents IA sur des tâches de traitement et d'analyse de données.
    0
    0
    Qu'est-ce que DataEnvGym ?
    DataEnvGym offre une collection d'environnements modulaires et personnalisables construits sur l'API Gym pour faciliter la recherche en apprentissage par renforcement dans les domaines axés sur les données. Les chercheurs et les ingénieurs peuvent sélectionner parmi des tâches intégrées telles que le nettoyage de données, l'ingénierie des caractéristiques, la planification par lots et l'analytique en streaming. Le cadre prend en charge une intégration transparente avec les bibliothèques RL populaires, des métriques de benchmark standardisées et des outils de journalisation pour suivre la performance des agents. Les utilisateurs peuvent étendre ou combiner des environnements pour modéliser des pipelines de données complexes et évaluer des algorithmes dans des contraintes réalistes.
  • Une plateforme basée sur Java permettant le développement, la simulation et le déploiement de systèmes multi-agents intelligents avec des capacités de communication, de négociation et d'apprentissage.
    0
    0
    Qu'est-ce que IntelligentMASPlatform ?
    L'IntelligentMASPlatform est conçue pour accélérer le développement et le déploiement de systèmes multi-agents en proposant une architecture modulaire avec des couches séparées pour les agents, l'environnement et les services. Les agents communiquent en utilisant la messagerie ACL conforme à FIPA, permettant une négociation et une coordination dynamiques. La plateforme inclut un simulateur d'environnement polyvalent qui permet aux développeurs de modéliser des scénarios complexes, de planifier des tâches d'agents et de visualiser les interactions en temps réel via un tableau de bord intégré. Pour des comportements avancés, elle intègre des modules d'apprentissage par renforcement et supporte des plugins de comportements personnalisés. Les outils de déploiement permettent d'emballer les agents en applications autonomes ou en réseaux distribués. De plus, l'API de la plateforme facilite l'intégration avec des bases de données, des appareils IoT ou des services IA tiers, la rendant adaptée à la recherche, à l'automatisation industrielle et aux cas d'utilisation en villes intelligentes.
  • Une plateforme PyTorch permettant aux agents d'apprendre des protocoles de communication émergents dans des tâches d'apprentissage par renforcement multi-agent.
    0
    0
    Qu'est-ce que Learning-to-Communicate-PyTorch ?
    Ce dépôt implémente la communication émergente dans l'apprentissage par renforcement multi-agent avec PyTorch. Les utilisateurs peuvent configurer des réseaux neuronaux pour l'émetteur et le récepteur afin de jouer à des jeux référentiels ou à une navigation coopérative, encourageant les agents à développer un canal de communication discret ou continu. Il fournit des scripts pour l'entraînement, l'évaluation et la visualisation des protocoles appris, ainsi que des utilitaires pour la création d'environnements, le codage et le décodage des messages. Les chercheurs peuvent l'étendre avec des tâches personnalisées, modifier les architectures de réseau et analyser l'efficacité des protocoles, favorisant des expérimentations rapides dans la communication d'agents émergents.
  • Simule des négociations dynamiques en e-commerce à l'aide d'agents IA acheteurs et vendeurs personnalisables, protocoles de négociation et visualisation.
    0
    0
    Qu'est-ce que Multi-Agent-Seller ?
    Multi-Agent-Seller fournit un environnement modulaire pour la simulation de négociations en e-commerce à l'aide d'agents IA. Il inclut des agents acheteurs et vendeurs pré-construits avec des stratégies de négociation personnalisables, telles que la tarification dynamique, les concessions basées sur le temps et la prise de décision utilitaire. Les utilisateurs peuvent définir des protocoles, formats de message et conditions de marché personnalisés. Le cadre gère la gestion de session, le suivi des offres et la journalisation des résultats avec des outils de visualisation intégrés pour analyser les interactions des agents. Il s'intègre facilement aux bibliothèques d'apprentissage automatique pour le développement de stratégies, permettant des expérimentations avec l'apprentissage par renforcement ou des agents basés sur des règles. Son architecture extensible permet d'ajouter de nouveaux types d'agents, règles de négociation et plugins de visualisation. Multi-Agent-Seller est idéal pour tester des algorithmes multi-agents, étudier les comportements de négociation et enseigner des concepts en IA et en commerce électronique.
  • NeuralABM entraîne des agents pilotés par des réseaux neuronaux pour simuler des comportements complexes et des environnements dans des scénarios de modélisation basée sur des agents.
    0
    0
    Qu'est-ce que NeuralABM ?
    NeuralABM est une bibliothèque open-source en Python qui exploite PyTorch pour intégrer des réseaux neuronaux dans la modélisation basée sur des agents. Les utilisateurs peuvent spécifier des architectures d'agents sous forme de modules neuronaux, définir la dynamique de l'environnement et entraîner le comportement des agents via la rétro-propagation sur les étapes de simulation. Le framework supporte des signaux de récompense personnalisés, l'apprentissage par curriculum, ainsi que des mises à jour synchrones ou asynchrones, permettant d'étudier des phénomènes émergents. Avec des utilitaires pour la journalisation, la visualisation et l'exportation de jeux de données, chercheurs et développeurs peuvent analyser la performance des agents, déboguer les modèles et itérer sur la conception des simulations. NeuralABM facilite la combinaison de l'apprentissage par renforcement avec l'ABM pour des applications en sciences sociales, économie, robotique et comportements NPC pilotés par IA dans les jeux. Il fournit des composants modulaires pour la personnalisation de l'environnement, supporte les interactions multi-agents, et offre des hooks pour intégrer des jeux de données ou API externes pour des simulations du monde réel. La conception ouverte favorise la reproductibilité et la collaboration via une configuration claire des expériences et une intégration du contrôle de version.
  • Une plateforme open-source permettant la formation, le déploiement et l’évaluation de modèles d'apprentissage par renforcement multi-agents pour des tâches coopératives et compétitives.
    0
    0
    Qu'est-ce que NKC Multi-Agent Models ?
    NKC Multi-Agent Models fournit aux chercheurs et développeurs une boîte à outils complète pour concevoir, entraîner et évaluer des systèmes d'apprentissage par renforcement multi-agents. Elle dispose d'une architecture modulaire où les utilisateurs définissent des politiques agents personnalisées, des dynamiques d’environnement et des structures de récompense. L’intégration transparente avec OpenAI Gym permet un prototypage rapide, tandis que le support de TensorFlow et PyTorch offre une flexibilité dans le choix des moteurs d’apprentissage. Le framework inclut des utilitaires pour la rejouabilité d’expérience, la formation centralisée avec exécution décentralisée, et la formation distribuée sur plusieurs GPUs. Des modules de journalisation et de visualisation étendus capturent les métriques de performance, facilitant le benchmarking et l’ajustement des hyperparamètres. En simplifiant la mise en place de scénarios coopératifs, compétitifs et mixtes, NKC Multi-Agent Models accélère l’expérimentation dans des domaines comme les véhicules autonomes, les essaims robotiques et l’IA de jeu.
  • Un agent d'apprentissage par renforcement open-source qui apprend à jouer à Pacman, en optimisant la navigation et l'évitement des fantômes.
    0
    0
    Qu'est-ce que Pacman AI ?
    Pacman AI offre un environnement Python entièrement fonctionnel et un cadre d'agents pour le jeu classique Pacman. Le projet implémente des algorithmes clés d'apprentissage par renforcement—Q-learning et itération de valeurs—pour permettre à l'agent d'apprendre des stratégies optimales pour la collecte de pilules, la navigation dans le labyrinthe et l'évitement des fantômes. Les utilisateurs peuvent définir des fonctions de récompense personnalisées et ajuster des hyperparamètres tels que le taux d'apprentissage, le facteur de dépréciation et la stratégie d'exploration. Le cadre supporte la journalisation des métriques, la visualisation des performances et la configuration d'expériences reproductibles. Conçu pour une extension facile, il permet aux chercheurs et étudiants d'intégrer de nouveaux algorithmes ou approches d'apprentissage basées sur des réseaux neuronaux et de les comparer aux méthodes de grille de référence dans le domaine Pacman.
  • Un cadre RL offrant des outils d'entraînement et d'évaluation PPO, DQN pour développer des agents compétitifs dans le jeu Pommerman.
    0
    0
    Qu'est-ce que PommerLearn ?
    PommerLearn permet aux chercheurs et aux développeurs d'entraîner des robots RL multi-agents dans l'environnement de jeu Pommerman. Il inclut des implémentations prêt-à-l'emploi d'algorithmes populaires (PPO, DQN), des fichiers de configuration flexibles pour les hyperparamètres, une journalisation automatique et une visualisation des métriques d'entraînement, un checkpointing de modèles et des scripts d'évaluation. Son architecture modulaire facilite l'extension avec de nouveaux algorithmes, la personnalisation des environnements et l'intégration avec des bibliothèques ML standard telles que PyTorch.
  • Une bibliothèque Python légère pour créer des environnements de grille 2D personnalisables pour former et tester des agents d'apprentissage par renforcement.
    0
    0
    Qu'est-ce que Simple Playgrounds ?
    Simple Playgrounds fournit une plateforme modulaire pour construire des environnements interactifs en grille 2D où des agents peuvent naviguer dans des labyrinthes, interagir avec des objets et accomplir des tâches. Les utilisateurs définissent la disposition de l'environnement, le comportement des objets et les fonctions de récompense via des scripts YAML ou Python simples. Le moteur de rendu Pygame intégré fournit une visualisation en temps réel, tandis qu'une API basée sur des pas garantit une intégration fluide avec des bibliothèques de RL comme Stable Baselines3. Avec le support pour des configurations multi-agent, la détection de collisions et des paramètres physiques personnalisables, Simple Playgrounds facilite les prototypes, le benchmarking et les démonstrations éducatives d'algorithmes IA.
  • Bibliothèque open-source PyTorch fournissant des implémentations modulaires d'agents d'apprentissage par renforcement tels que DQN, PPO, SAC et plus encore.
    0
    0
    Qu'est-ce que RL-Agents ?
    RL-Agents est un framework d'apprentissage par renforcement de niveau recherche construit sur PyTorch qui regroupe des algorithmes RL populaires dans les méthodes basées sur la valeur, la politique et l'acteur-critique. La bibliothèque dispose d'une API d'agent modulaire, d'une accélération GPU, d'une intégration transparente avec OpenAI Gym et d'outils intégrés de journalisation et de visualisation. Les utilisateurs peuvent configurerles hyperparamètres, personnaliser les boucles d'entraînement et mesurer les performances avec quelques lignes de code, rendant RL-Agents idéal pour la recherche académique, le prototypage et l'expérimentation industrielle.
  • Un cadre d'apprentissage par renforcement permettant aux robots autonomes de naviguer et d'éviter les collisions dans des environnements multi-agents.
    0
    0
    Qu'est-ce que RL Collision Avoidance ?
    RL Collision Avoidance offre une pipeline complète pour développer, former et déployer des politiques d’évitement de collision multi-robots. Il propose une série de scénarios de simulation compatibles Gym où les agents apprennent une navigation sans collision à l’aide d’algorithmes d'apprentissage par renforcement. Les utilisateurs peuvent personnaliser les paramètres de l’environnement, exploiter l’accélération GPU pour un entraînement plus rapide et exporter les politiques apprises. Le cadre intègre également ROS pour des tests sur le terrain, supporte des modèles pré-entraînés pour une évaluation immédiate et propose des outils pour visualiser les trajectoires des agents et les métriques de performance.
  • Le apprentissage automatique autodidacte simple est une bibliothèque Python fournissant des API simples pour construire, entraîner et évaluer des agents d'apprentissage par renforcement.
    0
    0
    Qu'est-ce que dead-simple-self-learning ?
    Le apprentissage automatique autodidacte simple offre aux développeurs une approche extrêmement simple pour créer et entraîner des agents d'apprentissage par renforcement en Python. Le framework abstrait les composants clés du RL, tels que les wrappers d'environnement, les modules de politique et les buffers d'expérience, en interfaces concises. Les utilisateurs peuvent rapidement initialiser les environnements, définir des politiques personnalisées avec des backends familiers comme PyTorch ou TensorFlow, et exécuter des boucles d’entraînement avec journalisation et sauvegarde intégrées. La bibliothèque supporte les algorithmes on-policy et off-policy, permettant une expérimentation flexible avec Q-learning, les gradients de politique et les méthodes acteur-critique. En réduisant le code boilerplate, le apprentissage automatique autodidacte simple permet aux praticiens, éducateurs et chercheurs de prototype des algorithmes, tester des hypothèses et visualiser la performance de l'agent avec une configuration minimale. Sa conception modulaire facilite également l'intégration avec les stacks ML existants et les environnements personnalisés.
  • SoccerAgent utilise l'apprentissage par renforcement multi-agent pour entraîner des joueurs IA pour des simulations de football réalistes et l'optimisation stratégique.
    0
    0
    Qu'est-ce que SoccerAgent ?
    SoccerAgent est un cadre IA spécialisé conçu pour développer et entraîner des agents de football autonomes en utilisant des techniques avancées d'apprentissage par renforcement multi-agent (MARL). Il simule des matchs de football réalistes dans des environnements 2D ou 3D, offrant des outils pour définir des fonctions de récompense, personnaliser les attributs des joueurs et mettre en œuvre des stratégies tactiques. Les utilisateurs peuvent intégrer des algorithmes RL courants (tels que PPO, DDPG et MADDPG) via des modules intégrés, suivre la progression de l'entraînement via des tableaux de bord et visualiser le comportement des agents en temps réel. Le cadre prend en charge l'entraînement basé sur des scénarios pour l'attaque, la défense et la coordination. Avec une base de code extensible et une documentation détaillée, SoccerAgent permet aux chercheurs et développeurs d'analyser la dynamique d'équipe et d'affiner leurs stratégies de jeu basées sur l'IA pour des projets académiques et commerciaux.
  • Un agent d'apprentissage par renforcement en source ouverte utilisant PPO pour entraîner et jouer à StarCraft II via l'environnement PySC2 de DeepMind.
    0
    0
    Qu'est-ce que StarCraft II Reinforcement Learning Agent ?
    Ce dépôt fournit un cadre complet d'apprentissage par renforcement pour la recherche sur le gameplay de StarCraft II. L'agent principal utilise la Proximal Policy Optimization (PPO) pour apprendre des réseaux de politiques interprétant les données d'observation de l'environnement PySC2 et générant des actions précises dans le jeu. Les développeurs peuvent configurer les couches de réseaux neuronaux, la reformulation des récompenses et les plannings d'entraînement pour optimiser la performance. Le système supporte la collecte d'échantillons en multiprocessing pour plus d'efficacité, des outils de journalisation pour suivre les courbes d'entraînement, et des scripts d'évaluation pour tester les politiques entraînées contre des adversaires scriptés ou IA intégrée. Le code est écrit en Python et utilise TensorFlow pour la définition et l'optimisation des modèles. Les utilisateurs peuvent étendre des composants tels que les fonctions de récompense personnalisées, le pré-traitement des états ou les architectures de réseaux pour répondre à leurs objectifs de recherche spécifiques.
  • Un agent IA basé sur le RL qui apprend des stratégies de pari optimales pour jouer efficacement au poker Texas Hold'em limit heads-up.
    0
    0
    Qu'est-ce que TexasHoldemAgent ?
    TexasHoldemAgent fournit un environnement modulaire basé sur Python pour entraîner, évaluer et déployer un joueur de poker alimenté par IA pour le Texas Hold’em limit heads-up. Il intègre un moteur de simulation personnalisé avec des algorithmes d'apprentissage par renforcement profond, dont DQN, pour une amélioration itérative de la politique. Les capacités clés incluent l'encodage de l'état de la main, la définition de l'espace d'action (fold, call, raise), la modélisation de la récompense et l'évaluation des décisions en temps réel. Les utilisateurs peuvent personnaliser les paramètres d'apprentissage, utiliser l'accélération CPU/GPU, suivre l'avancement de la formation et charger ou sauvegarder des modèles entraînés. Le cadre supporte des simulations par lot pour tester diverses stratégies, générer des métriques de performance et visualiser les taux de réussite, permettant aux chercheurs, développeurs et amateurs de poker d'expérimenter avec des stratégies de jeu pilotées par l'IA.
Vedettes