Outils Verstärkendes Lernen simples et intuitifs

Explorez des solutions Verstärkendes Lernen conviviales, conçues pour simplifier vos projets et améliorer vos performances.

Verstärkendes Lernen

  • Le apprentissage automatique autodidacte simple est une bibliothèque Python fournissant des API simples pour construire, entraîner et évaluer des agents d'apprentissage par renforcement.
    0
    0
    Qu'est-ce que dead-simple-self-learning ?
    Le apprentissage automatique autodidacte simple offre aux développeurs une approche extrêmement simple pour créer et entraîner des agents d'apprentissage par renforcement en Python. Le framework abstrait les composants clés du RL, tels que les wrappers d'environnement, les modules de politique et les buffers d'expérience, en interfaces concises. Les utilisateurs peuvent rapidement initialiser les environnements, définir des politiques personnalisées avec des backends familiers comme PyTorch ou TensorFlow, et exécuter des boucles d’entraînement avec journalisation et sauvegarde intégrées. La bibliothèque supporte les algorithmes on-policy et off-policy, permettant une expérimentation flexible avec Q-learning, les gradients de politique et les méthodes acteur-critique. En réduisant le code boilerplate, le apprentissage automatique autodidacte simple permet aux praticiens, éducateurs et chercheurs de prototype des algorithmes, tester des hypothèses et visualiser la performance de l'agent avec une configuration minimale. Sa conception modulaire facilite également l'intégration avec les stacks ML existants et les environnements personnalisés.
  • Un agent d'apprentissage par renforcement en source ouverte utilisant PPO pour entraîner et jouer à StarCraft II via l'environnement PySC2 de DeepMind.
    0
    0
    Qu'est-ce que StarCraft II Reinforcement Learning Agent ?
    Ce dépôt fournit un cadre complet d'apprentissage par renforcement pour la recherche sur le gameplay de StarCraft II. L'agent principal utilise la Proximal Policy Optimization (PPO) pour apprendre des réseaux de politiques interprétant les données d'observation de l'environnement PySC2 et générant des actions précises dans le jeu. Les développeurs peuvent configurer les couches de réseaux neuronaux, la reformulation des récompenses et les plannings d'entraînement pour optimiser la performance. Le système supporte la collecte d'échantillons en multiprocessing pour plus d'efficacité, des outils de journalisation pour suivre les courbes d'entraînement, et des scripts d'évaluation pour tester les politiques entraînées contre des adversaires scriptés ou IA intégrée. Le code est écrit en Python et utilise TensorFlow pour la définition et l'optimisation des modèles. Les utilisateurs peuvent étendre des composants tels que les fonctions de récompense personnalisées, le pré-traitement des états ou les architectures de réseaux pour répondre à leurs objectifs de recherche spécifiques.
  • Un agent IA basé sur le RL qui apprend des stratégies de pari optimales pour jouer efficacement au poker Texas Hold'em limit heads-up.
    0
    0
    Qu'est-ce que TexasHoldemAgent ?
    TexasHoldemAgent fournit un environnement modulaire basé sur Python pour entraîner, évaluer et déployer un joueur de poker alimenté par IA pour le Texas Hold’em limit heads-up. Il intègre un moteur de simulation personnalisé avec des algorithmes d'apprentissage par renforcement profond, dont DQN, pour une amélioration itérative de la politique. Les capacités clés incluent l'encodage de l'état de la main, la définition de l'espace d'action (fold, call, raise), la modélisation de la récompense et l'évaluation des décisions en temps réel. Les utilisateurs peuvent personnaliser les paramètres d'apprentissage, utiliser l'accélération CPU/GPU, suivre l'avancement de la formation et charger ou sauvegarder des modèles entraînés. Le cadre supporte des simulations par lot pour tester diverses stratégies, générer des métriques de performance et visualiser les taux de réussite, permettant aux chercheurs, développeurs et amateurs de poker d'expérimenter avec des stratégies de jeu pilotées par l'IA.
  • Text-to-Reward apprend des modèles de récompense généraux à partir d'instructions en langage naturel pour guider efficacement les agents RL.
    0
    0
    Qu'est-ce que Text-to-Reward ?
    Text-to-Reward fournit une pipeline pour entraîner des modèles de récompense qui transforment des descriptions de tâches basées sur du texte ou des retours en valeurs de récompense scalaires pour les agents RL. En utilisant des architectures basées sur Transformer et un fine-tuning sur des données de préférences humaines, le cadre apprend automatiquement à interpréter les instructions en langage naturel comme signaux de récompense. Les utilisateurs peuvent définir des tâches arbitraires via des invites textuelles, entraîner le modèle, puis incorporer la fonction de récompense apprise dans n'importe quel algorithme RL. Cette approche élimine le façonnage manuel des récompenses, augmente l'efficacité des échantillons et permet aux agents de suivre des instructions complexes en plusieurs étapes dans des environnements simulés ou réels.
  • uAgents offre un cadre modulaire pour la création d'agents IA autonomes décentralisés capables de communication peer-to-peer, de coordination et d'apprentissage.
    0
    0
    Qu'est-ce que uAgents ?
    uAgents est un framework JavaScript modulaire qui permet aux développeurs de construire des agents IA autonomes et décentralisés capables de découvrir des pairs, d’échanger des messages, de collaborer sur des tâches et de s’adapter par l’apprentissage. Les agents communiquent via des protocoles de gossip basés sur libp2p, enregistrent des capacités via des registres on-chain et négocient des accords de niveau de service à l’aide de smart contracts. La bibliothèque centrale gère les événements du cycle de vie des agents, le routage des messages et les comportements extensibles tels que l'apprentissage par renforcement et l'allocation de tâches basée sur le marché. Grâce à des plugins personnalisables, uAgents peut s’intégrer au ledger de Fetch.ai, aux API externes et aux réseaux d’oracles, permettant aux agents d’effectuer des actions du monde réel, de collecter des données et de prendre des décisions dans des environnements distribués sans orchestration centralisée.
  • Vanilla Agents fournit des implémentations prêtes à l'emploi d'agents RL DQN, PPO et A2C avec des pipelines de formation personnalisables.
    0
    0
    Qu'est-ce que Vanilla Agents ?
    Vanilla Agents est un cadre léger basé sur PyTorch qui fournit des implémentations modulaires et extensibles d'agents d'apprentissage par renforcement de base. Il supporte des algorithmes comme DQN, Double DQN, PPO et A2C, avec des wrappers d'environnement adaptables compatibles avec OpenAI Gym. Les utilisateurs peuvent configurer les hyperparamètres, enregistrer les métriques d'entraînement, sauvegarder les points de contrôle et visualiser les courbes d'apprentissage. La base de code est organisée pour la clarté, ce qui le rend idéal pour le prototypage de recherche, un usage éducatif et la mise en référence de nouvelles idées en RL.
  • VMAS est un cadre MARL modulaire permettant une simulation et un entraînement de environnements multi-agents accélérés par GPU avec des algorithmes intégrés.
    0
    0
    Qu'est-ce que VMAS ?
    VMAS est une boîte à outils complète pour construire et entraîner des systèmes multi-agents utilisant l'apprentissage par renforcement profond. Il supporte la simulation parallèle sur GPU de centaines d'instances d'environnement, permettant une collecte de données à haut débit et un entraînement évolutif. VMAS inclut des implémentations des algorithmes MARL populaires tels que PPO, MADDPG, QMIX et COMA, avec des interfaces modulaires pour la politique et l'environnement pour une prototypage rapide. Le cadre facilite la formation centralisée avec exécution décentralisée (CTDE), propose une personnalisation du façonnage des récompenses, des espaces d'observation et des hooks de rappel pour la journalisation et la visualisation. Avec sa conception modulaire, VMAS s'intègre parfaitement avec les modèles PyTorch et les environnements externes, ce qui en fait un choix idéal pour la recherche dans les tâches coopératives, compétitives et à motivations mixtes en robotique, gestion du trafic, allocation des ressources et scénarios d'IA de jeux.
  • Un agent RL open-source pour les duels Yu-Gi-Oh, offrant simulation d'environnement, entraînement de politique et optimisation de stratégie.
    0
    0
    Qu'est-ce que YGO-Agent ?
    Le cadre YGO-Agent permet aux chercheurs et aux passionnés de développer des bots IA qui jouent au jeu de cartes Yu-Gi-Oh en utilisant l'apprentissage par renforcement. Il enveloppe le simulateur de jeu YGOPRO dans un environnement compatible OpenAI Gym, définissant des représentations d'état telles que la main, le terrain et les points de vie, ainsi que des représentations d'action incluant l'invocation, l'activation de sorts/pièges et l'attaque. Les récompenses sont basées sur les résultats de victoire/défaite, les dégâts infligés et la progression du jeu. L'architecture de l'agent utilise PyTorch pour implémenter DQN, avec des options pour des architectures de réseau personnalisées, la rejouabilité d'expérience et l'exploration epsilon-greedy. Les modules de journalisation enregistrent les courbes d'entraînement, les taux de victoire et les logs de mouvements détaillés pour l'analyse. Le cadre est modulaire, permettant aux utilisateurs de remplacer ou d'étendre des composants tels que la fonction de récompense ou l'espace d'action.
  • Relie le simulateur de vol X-Plane à OpenAI Gym pour former des agents d'apprentissage par renforcement pour un contrôle réaliste des avions via Python.
    0
    0
    Qu'est-ce que GYM_XPLANE_ML ?
    GYM_XPLANE_ML encapsule le simulateur de vol X-Plane en tant qu'environnement OpenAI Gym, exposant la commande de l'accélérateur, de l'élévateur, de l'aileron et du gouvernail comme espaces d'action et des paramètres de vol tels que l'altitude, la vitesse et l'orientation comme observations. Les utilisateurs peuvent programmer des flux de travail d'entraînement en Python, choisir des scénarios prédéfinis ou personnaliser des waypoints, des conditions météorologiques et des modèles d'avion. La bibliothèque gère la communication à faible latence avec X-Plane, exécute des épisodes en mode synchrone, enregistre les performances et supporte le rendu en temps réel pour le débogage. Elle permet le développement itératif d'autopilotes basés sur ML et d'algorithmes RL expérimentaux dans un environnement de vol haute fidélité.
  • Un cadre d'agent IA orchestrant plusieurs agents de traduction pour générer, affiner et évaluer les traductions automatiques de manière collaborative.
    0
    0
    Qu'est-ce que AI-Agentic Machine Translation ?
    La traduction automatique machine agentique est un cadre open-source conçu pour la recherche et le développement en traduction automatique. Il orchestre trois agents principaux — un générateur, un évaluateur et un affinateur — pour produire, évaluer et affiner collaborativement les traductions. Basé sur PyTorch et des modèles de transformeurs, le système supporte la pré-formation supervisée, l'optimisation par apprentissage par renforcement, et des politiques d'agents configurables. Les utilisateurs peuvent effectuer des benchmarks sur des jeux de données standard, suivre les scores BLEU, et étendre le pipeline avec des agents ou fonctions de récompense personnalisés pour explorer la collaboration entre agents dans les tâches de traduction.
  • AI Hedge Fund 5zu utilise l'apprentissage par renforcement pour automatiser la gestion de portefeuille et optimiser les stratégies de trading.
    0
    0
    Qu'est-ce que AI Hedge Fund 5zu ?
    AI Hedge Fund 5zu fournit une pipeline complète pour le trading quantitatif : un environnement personnalisable pour la simulation de plusieurs classes d'actifs, des modules d'agents basés sur l'apprentissage par renforcement, des utilitaires de test rétroactif, une intégration en temps réel des données du marché et des outils de gestion des risques. Les utilisateurs peuvent configurer les sources de données, définir des fonctions de récompense, entraîner des agents sur des données historiques et évaluer les performances selon de principaux indicateurs financiers. Le framework supporte le développement de stratégies modulaires et peut être étendu aux API de courtiers en direct pour déployer des robots de trading en production.
  • Boîtier d'outils Python open-source offrant une reconnaissance de motifs aléatoire, basée sur des règles, et des agents d'apprentissage par renforcement pour Pierre-Papier-Cierre.
    0
    0
    Qu'est-ce que AI Agents for Rock Paper Scissors ?
    Les agents IA pour Pierre-Papier-Ciseaux sont un projet Python open-source démontrant comment construire, entraîner et évaluer différentes stratégies d'IA—jeu aléatoire, reconnaissance de motifs basée sur des règles, et apprentissage par renforcement (Q-learning)—dans le jeu classique Pierre-Papier-Ciseaux. Il fournit des classes d'agents modulaires, un moteur de jeu configurable, une journalisation des performances, et des utilitaires de visualisation. Les utilisateurs peuvent échanger facilement des agents, ajuster les paramètres d'apprentissage, et explorer le comportement de l'IA dans des scénarios compétitifs.
  • Une environnement Python OpenAI Gym simulant la chaîne d'approvisionnement du jeu de la bière pour former et évaluer des agents RL.
    0
    0
    Qu'est-ce que Beer Game Environment ?
    L'environnement Beer Game fournit une simulation en temps discret d'une chaîne d'approvisionnement en bière à quatre étapes — détaillant, grossiste, distributeur, fabricant — avec une interface OpenAI Gym. Les agents reçoivent des observations incluant le stock en main, le stock en pipeline et les commandes entrantes, puis produisent des quantités de commande. L'environnement calcule les coûts par étape pour la détention d'inventaire et les retards, et supporte des distributions de demande et des délais de livraison personnalisables. Il s'intègre parfaitement avec des bibliothèques RL populaires comme Stable Baselines3, permettant aux chercheurs et éducateurs de benchmarker et former des algorithmes sur des tâches d'optimisation de la chaîne d'approvisionnement.
  • BotPlayers est un framework open-source permettant la création, le test et le déploiement d'agents de jeu d'IA avec prise en charge de l'apprentissage par renforcement.
    0
    0
    Qu'est-ce que BotPlayers ?
    BotPlayers est un framework polyvalent open-source conçu pour simplifier le développement et le déploiement d'agents de jeu pilotés par IA. Il comprend une couche d'abstraction d'environnement flexible supportant le screen scraping, les API web ou des interfaces de simulation personnalisées, permettant aux bots d'interagir avec divers jeux. Le framework inclut des algorithmes d'apprentissage par renforcement intégrés, des algorithmes génétiques et des heuristiques basées sur des règles, ainsi que des outils pour la journalisation des données, le pointage des modèles et la visualisation des performances. Son système de plugins modulaire permet aux développeurs de personnaliser capteurs, actions et politiques IA en Python ou Java. BotPlayers propose également une configuration YAML pour un prototypage rapide et des pipelines automatisés pour l'entraînement et l'évaluation. Supportant plusieurs plates-formes comme Windows, Linux et macOS, ce framework accélère la recherche et la production d'agents de jeu intelligents.
  • Une environnement d'apprentissage par renforcement open-source pour optimiser la gestion de l'énergie des bâtiments, le contrôle des microgrids et les stratégies de réponse à la demande.
    0
    0
    Qu'est-ce que CityLearn ?
    CityLearn fournit une plateforme de simulation modulaire pour la recherche en gestion de l'énergie utilisant l'apprentissage par renforcement. Les utilisateurs peuvent définir des regroupements de bâtiments multi-zones, configurer des systèmes HVAC, des unités de stockage et des sources renouvelables, puis entraîner des agents RL contre des événements de réponse à la demande. L'environnement expose des observations d'état telles que températures, profils de charge et prix de l'énergie, tandis que les actions contrôlent les points de consigne et la dispatch du stockage. Une API de récompense flexible permet des métriques personnalisées—comme les économies de coûts ou la réduction des émissions—et les outils de journalisation supports l'analyse des performances. CityLearn est idéal pour le benchmarking, l'apprentissage par curriculum, et le développement de nouvelles stratégies de contrôle dans un cadre de recherche reproductible.
  • Cadre open-source offrant des agents de trading en cryptomonnaie basés sur le reinforcement learning avec backtesting, intégration en direct et suivi des performances.
    0
    0
    Qu'est-ce que CryptoTrader Agents ?
    CryptoTrader Agents fournit une boîte à outils complète pour concevoir, entraîner et déployer des stratégies de trading pilotées par IA sur les marchés de cryptomonnaies. Il inclut un environnement modulaire pour l’ingestion de données, la création de fonctionnalités, et des fonctions de récompense personnalisées. Les utilisateurs peuvent exploiter des algorithmes d’apprentissage par renforcement préconfigurés ou intégrer leurs propres modèles. La plateforme offre un backtesting simulé basé sur des données historiques de prix, des contrôles de gestion des risques, et un suivi précis des métriques. Lorsqu’elle est prête, les agents peuvent se connecter aux API d’échange en direct pour une exécution automatisée. Bordée en Python, la plateforme est entièrement extensible, permettant aux utilisateurs de prototyper de nouvelles tactiques, d’effectuer des balayages de paramètres, et de surveiller les performances en temps réel.
  • Un framework Python haute performance fournissant des algorithmes de renforcement rapide et modulaire avec prise en charge multi-environnements.
    0
    0
    Qu'est-ce que Fast Reinforcement Learning ?
    Fast Reinforcement Learning est un framework Python spécialisé visant à accélérer le développement et l'exécution d'agents d'apprentissage par renforcement. Il offre une prise en charge prête à l'emploi pour des algorithmes populaires tels que PPO, A2C, DDPG et SAC, associée à une gestion d'environnements vectorisés à haut débit. Les utilisateurs peuvent facilement configurer des réseaux de politiques, personnaliser des boucles d'apprentissage et exploiter l'accélération GPU pour des expérimentations à grande échelle. La conception modulaire de la bibliothèque assure une intégration transparente avec les environnements OpenAI Gym, permettant aux chercheurs et praticiens de prototyper, de benchmarker et de déployer des agents dans une variété de tâches de contrôle, de jeux et de simulation.
  • DeepSeek R1 est un modèle d'IA avancé et open-source spécialisé dans le raisonnement, les mathématiques et la programmation.
    0
    0
    Qu'est-ce que Deepseek R1 ?
    DeepSeek R1 représente une percée significative dans l'intelligence artificielle, offrant une performance de premier ordre dans les tâches de raisonnement, de mathématiques et de codage. Utilisant une architecture complexe MoE (Mixture of Experts) avec 37B de paramètres activés et 671B de paramètres totaux, DeepSeek R1 met en œuvre des techniques avancées d'apprentissage par renforcement pour atteindre des références de pointe. Le modèle offre des performances robustes, y compris 97,3% de précision sur MATH-500 et un classement au 96,3ème percentile sur Codeforces. Sa nature open-source et ses options de déploiement peu coûteuses le rendent accessible à un large éventail d'applications.
  • Frame de RL basé sur Python implémentant le deep Q-learning pour entraîner un agent IA pour le jeu de dinosaure hors ligne de Chrome.
    0
    0
    Qu'est-ce que Dino Reinforcement Learning ?
    Dino Reinforcement Learning offre une boîte à outils complète pour entraîner un agent IA à jouer au jeu de dinosaure de Chrome via reinforcement learning. En s'intégrant avec une instance Chrome sans interface via Selenium, il capture en temps réel les frames du jeu et les traite en représentations d'état optimisées pour les entrées du réseau Q profond. Le framework comprend des modules pour la mémoire de rejouement, l'exploration epsilon-greedy, des modèles de réseaux neuronaux convolutifs, et des boucles d'entraînement avec des hyperparamètres personnalisables. Les utilisateurs peuvent suivre la progression de l'entraînement via des logs en console et sauvegarder des checkpoints pour une évaluation ultérieure. Après l'entraînement, l'agent peut être déployé pour jouer en direct de manière autonome ou être testé contre différentes architectures de modèles. Son design modulaire permet une substitution facile des algorithmes RL, faisant de cette plateforme un environnement de experimentation flexible.
  • Agent Deep Q-Network basé sur TensorFlow en open source qui apprend à jouer à Atari Breakout en utilisant la répétition d'expériences et des réseaux cibles.
    0
    0
    Qu'est-ce que DQN-Deep-Q-Network-Atari-Breakout-TensorFlow ?
    DQN-Deep-Q-Network-Atari-Breakout-TensorFlow fournit une implémentation complète de l'algorithme DQN adaptée à l'environnement Atari Breakout. Il utilise un réseau neuronal convolutionnel pour approximer les valeurs Q, applique la répétition d'expériences pour briser les corrélations entre observations séquentielles et emploie un réseau cible mis à jour périodiquement pour stabiliser l'entraînement. L'agent suit une politique epsilon-greedy pour l'exploration et peut être entraîné à partir de zéro avec des entrées de pixels bruts. Le dépôt comprend des fichiers de configuration, des scripts d'entraînement pour surveiller la croissance des récompenses, des scripts d'évaluation pour tester les modèles entraînés, et des utilitaires TensorBoard pour visualiser les métriques d'entraînement. Les utilisateurs peuvent ajuster des hyperparamètres tels que le taux d'apprentissage, la taille du buffer de replay et la taille de lot pour expérimenter différentes configurations.
Vedettes