Otimizar diretamente as preferências humanas usando RL, essa abordagem é bastante limpa e muito mais elegante do que empilhar classificadores.

Ver original
MeNews
Pesquisadores desenvolveram técnicas de aprendizado por reforço online para modelos de geração de imagens
ME News Notícias, 19 de abril (UTC+8), recentemente, pesquisadores desenvolveram uma técnica simples e eficiente em amostras para aprendizado por reforço online para modelos de geração de imagens treinados. Essa técnica é vista como uma alternativa possível e orientável para substituir a técnica de orientação livre por classificador, cujo sinal de condução pode ser qualquer recompensa escalar, incluindo preferências humanas. O artigo original fornece mais informações através de um link no Twitter. (Fonte: InFoQ)
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado