Tencent Hunyuan lança UniRL: infraestrutura unificada de aprendizagem por reforço multimodal

robot
Geração de resumo em curso
ME AI Mensagem, Tencent Hunyuan lança UniRL, uma infraestrutura de aprendizagem por reforço que suporta modelos multimodais unificados, e publica dois novos algoritmos DRPO e Flow-DPPO. UniRL cobre modelos de difusão/fluxo, modelos de linguagem grande/visão de linguagem e modelos multimodais unificados (como Hunyuan-Image 3 e Bagel) através de um único ciclo de pós-treinamento (gerar→avaliar→vantagem→atualizar→sincronizar). Os modelos e algoritmos são tratados como eixos independentes, permitindo combinações de modelos×algoritmos. A estrutura suporta motores de rollout plugáveis (lado de treino/SGLang/vLLM-Omni), particionamento FSDP2 e três modos de implantação. O FlowDPPO introduz uma estratégia de otimização de domínio de confiança baseada em divergência precisa para modelos de fluxo/difusão; o DRPO fornece um método de regularização quadrática de ponderação de vantagem suave para RL com LLM. O código já está de código aberto. (Fonte: AiHot)
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado