O Text-to-Reward fornece um pipeline para treinar modelos de recompensa que mapeiam descrições de tarefas ou feedback baseado em texto em valores de recompensa escalar para agentes de RL. Aproveitando arquiteturas baseadas em transformadores e ajustando finamente com dados de preferência humana coletados, o framework aprende automaticamente a interpretar instruções em linguagem natural como sinais de recompensa. Os usuários podem definir tarefas arbitrárias por meio de prompts de texto, treinar o modelo e, posteriormente, incorporar a função de recompensa aprendida em qualquer algoritmo de RL. Essa abordagem elimina a necessidade de moldar manualmente recompensas, aumenta a eficiência de amostragem e permite que agentes sigam instruções complexas de múltiplas etapas em ambientes simulados ou do mundo real.
Recursos Principais do Text-to-Reward
Modelagem de recompensa condicionada a linguagem natural
Arquitetura baseada em transformadores
Treinamento com dados de preferência humana
Integração fácil com OpenAI Gym
Função de recompensa exportável para qualquer algoritmo de RL
Prós e Contras do Text-to-Reward
Contras
Prós
Automatiza a geração de funções de recompensa densas sem necessidade de conhecimento de domínio ou dados
Utiliza grandes modelos de linguagem para interpretar objetivos em linguagem natural
Suporta refinamento iterativo com feedback humano
Alcança desempenho comparável ou melhor que recompensas projetadas por especialistas em benchmarks
Permite a implantação no mundo real de políticas treinadas em simulação
Geração de código de recompensa interpretável e de formato livre