- Étape 1 : Installer le package Python Text-to-Reward via pip.
- Étape 2 : Préparer un ensemble de données d'instructions textuelles avec des annotations de préférence ou de récompense associées.
- Étape 3 : Configurer et entraîner le modèle de récompense en utilisant les scripts d'entraînement fournis.
- Étape 4 : Exporter le modèle entraîné et l'intégrer dans votre pipeline RL (ex. OpenAI Gym).
- Étape 5 : Exécuter votre agent RL avec la fonction de récompense apprise et évaluer la performance.