Notícias do site Coinjie, a Odyssey introduziu o Aprendizado por Reforço (RLHF) no treino de modelos visuais, lançando a estrutura prowl, que pela primeira vez incorpora RL no ciclo de treino de modelos de mundo.


Esta estrutura envia agentes de RL para explorar ambientes de jogo, procurando casos de falha do modelo em geometria, movimento, consistência visual e resposta a ações, e empacota esses bugs como dados de treino para retroalimentar o modelo.
O prowl foi projetado com um buffer de trajetórias de adversários de prioridade (PAT), que automaticamente envia casos de falha mais difíceis após o modelo corrigir bugs simples.
A equipe validou o prowl no ambiente Minerl do Minecraft, e os resultados quantificados mostraram que, em relação à linha de base de pré-treinamento, o prowl reduziu o erro de seguimento de ações em 12,6%, com uma redução de até 20,9% nos 10% dos trechos mais difíceis.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado