Tencent Hunyuan desta vez integrou modelos LLM e de difusão no mesmo quadro de aprendizagem por reforço, lançando simultaneamente os algoritmos flow-dppo e drpo, uma abordagem técnica bastante audaciosa.

Ver original
CoinNetwork
Notícias do site Coinjie, Tencent Hunyuan lança open source UniRL, integrando modelos de linguagem grande e modelos de difusão no mesmo quadro de treinamento por reforço, permitindo que modelos de geração de texto, linguagem visual, imagens e vídeos compartilhem um ciclo de treinamento unificado. Para modelos de difusão e de correspondência de fluxo, a equipe Hunyuan lançou o algoritmo flow-dppo, que utiliza a característica de distribuição gaussiana da estratégia de cada passo do modelo de correspondência de fluxo, aplicando diretamente a divergência KL para restringir a atualização da estratégia, e usando uma máscara de divergência assimétrica para evitar que o modelo se desvie demais, mantendo uma convergência estável. Para modelos de linguagem grande, a equipe também lançou o algoritmo drpo, que introduz um termo de regularização quadrática ponderada por vantagem para substituir a truncagem rígida, garantindo que o modelo ainda receba sinais de correção de gradiente contínuos quando se desviar da distribuição alvo.
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado