Tencent Hunyuan colocou os modelos LLM e de difusão dentro do mesmo framework de aprendizado por reforço, com os algoritmos duplos flow-dppo e drpo sendo lançados simultaneamente, uma abordagem técnica bastante ousada.

Ver original
CoinNetwork
Notícias do site Coinjie, Tencent Hunyuan lança open source UniRL, integrando modelos de linguagem grande e modelos de difusão em uma única estrutura de treinamento por reforço, permitindo que modelos de geração de texto, linguagem visual, imagem e vídeo compartilhem um ciclo de treinamento unificado. Para modelos de difusão e de correspondência de fluxo, a equipe Hunyuan lançou o algoritmo flow-dppo, que utiliza a característica de distribuição gaussiana da estratégia de cada passo do modelo de correspondência de fluxo, aplicando diretamente a divergência KL para restringir a atualização da estratégia, e evita que o modelo se desvie demais usando uma máscara de divergência assimétrica, mantendo uma convergência estável. Para modelos de linguagem grande, a equipe também lançou o algoritmo drpo, que introduz um termo de regularização quadrática ponderado por vantagem para substituir a truncagem rígida, garantindo que o modelo ainda receba sinais de correção de gradiente contínuos quando se desviar da distribuição alvo.
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado