Outils 사용자 정의 보상 함수 simples et intuitifs

Explorez des solutions 사용자 정의 보상 함수 conviviales, conçues pour simplifier vos projets et améliorer vos performances.

사용자 정의 보상 함수

  • gym-fx fournit un environnement OpenAI Gym personnalisable pour former et évaluer des agents d'apprentissage par renforcement pour les stratégies de trading Forex.
    0
    0
    Qu'est-ce que gym-fx ?
    gym-fx est une bibliothèque Python open-source qui implémente un environnement de trading Forex simulé utilisant l'interface OpenAI Gym. Elle offre un support pour plusieurs paires de devises, l'intégration de flux de prix historiques, des indicateurs techniques et des fonctions de récompense entièrement personnalisables. En fournissant une API normalisée, gym-fx simplifie le benchmarking et le développement d'algorithmes d'apprentissage par renforcement pour le trading algorithmique. Les utilisateurs peuvent configurer le glissement de marché, les coûts de transaction et les espaces d'observation pour reproduire de près des scénarios de trading en direct, facilitant le développement et l'évaluation de stratégies robustes.
  • MAPF_G2RL est un cadre Python entraînant des agents d'apprentissage par renforcement profond pour la recherche de chemin multi-agents efficace sur des graphes.
    0
    0
    Qu'est-ce que MAPF_G2RL ?
    MAPF_G2RL est un cadre de recherche open-source qui relie la théorie des graphes et l'apprentissage par renforcement profond pour résoudre le problème de recherche de chemin multi-agents (MAPF). Il encode les nœuds et les arêtes en représentations vectorielles, définit des fonctions de récompense spatiales et sensibles aux collisions, et supporte divers algorithmes RL tels que DQN, PPO et A2C. Le cadre automatise la création de scénarios en générant des graphes aléatoires ou en important des cartes du monde réel, et orchestre des boucles d'entraînement qui optimisent simultanément les politiques pour plusieurs agents. Après apprentissage, les agents sont évalués dans des environnements simulés pour mesurer l'optimalité des chemins, le temps de sortie et les taux de réussite. Sa conception modulaire permet aux chercheurs d'étendre ses composants, d'intégrer de nouvelles techniques MARL et de benchmarker contre des solveurs classiques.
  • MARFT est une boîte à outils open-source d'affinement par apprentissage par renforcement multi-agent pour les flux de travail IA collaboratifs et l'optimisation de modèles linguistiques.
    0
    0
    Qu'est-ce que MARFT ?
    MARFT est un LLM basé sur Python, permettant des expériences reproductibles et la prototypage rapide de systèmes IA collaboratifs.
  • Implémente l'apprentissage par renforcement multi-agent DDPG décentralisé utilisant PyTorch et Unity ML-Agents pour la formation collaborative des agents.
    0
    0
    Qu'est-ce que Multi-Agent DDPG with PyTorch & Unity ML-Agents ?
    Ce projet open-source offre un cadre complet d'apprentissage par renforcement multi-agent basé sur PyTorch et Unity ML-Agents. Il propose des algorithmes DDPG décentralisés, des wrappers d'environnements et des scripts d'entraînement. Les utilisateurs peuvent configurer les politiques d'agents, les réseaux critiques, les buffers de relecture et les travailleurs d'entraînement parallèles. Les hooks de journalisation permettent la surveillance avec TensorBoard, tandis qu'une architecture modulaire supporte des fonctions de récompense et paramètres d'environnement personnalisés. Le dépôt inclut des scènes Unity d'exemple illustrant des tâches de navigation collaborative, idéal pour étendre et benchmarker des scénarios multi-agent en simulation.
  • RL Shooter fournit un environnement d'apprentissage par renforcement basé sur Doom, personnalisable, pour entraîner des agents IA à naviguer et tirer sur des cibles.
    0
    0
    Qu'est-ce que RL Shooter ?
    RL Shooter est un cadre basé sur Python qui intègre ViZDoom avec les API OpenAI Gym pour créer un environnement flexible d'apprentissage par renforcement pour les jeux FPS. Les utilisateurs peuvent définir des scénarios, cartes et structures de récompense personnalisés pour entraîner les agents sur la navigation, la détection de cibles et les tâches de tir. Avec des cadres d'observation, des espaces d'action et des facilités de journalisation configurables, il supporte des bibliothèques populaires de RL profond comme Stable Baselines et RLlib, permettant un suivi clair des performances et la reproductibilité des expériences.
  • Une bibliothèque Python légère pour créer des environnements de grille 2D personnalisables pour former et tester des agents d'apprentissage par renforcement.
    0
    0
    Qu'est-ce que Simple Playgrounds ?
    Simple Playgrounds fournit une plateforme modulaire pour construire des environnements interactifs en grille 2D où des agents peuvent naviguer dans des labyrinthes, interagir avec des objets et accomplir des tâches. Les utilisateurs définissent la disposition de l'environnement, le comportement des objets et les fonctions de récompense via des scripts YAML ou Python simples. Le moteur de rendu Pygame intégré fournit une visualisation en temps réel, tandis qu'une API basée sur des pas garantit une intégration fluide avec des bibliothèques de RL comme Stable Baselines3. Avec le support pour des configurations multi-agent, la détection de collisions et des paramètres physiques personnalisables, Simple Playgrounds facilite les prototypes, le benchmarking et les démonstrations éducatives d'algorithmes IA.
  • Gym-Recsys fournit des environnements OpenAI Gym personnalisables pour une formation évolutive et une évaluation des agents de recommandation par apprentissage par renforcement
    0
    0
    Qu'est-ce que Gym-Recsys ?
    Gym-Recsys est une boîte à outils qui encapsule des tâches de recommandation dans des environnements OpenAI Gym, permettant aux algorithmes d'apprentissage par renforcement d'interagir étape par étape avec des matrices utilisateur-élément simulées. Il fournit des générateurs de comportements utilisateur synthétiques, supporte le chargement de datasets populaires et livre des métriques standard comme Precision@K et NDCG. Les utilisateurs peuvent personnaliser les fonctions de récompense, les modèles utilisateur et les pools d’objets pour expérimenter différentes stratégies de recommandation RL de manière reproductible.
Vedettes