Tencent Hunyuan lança UniRL: infraestrutura unificada de aprendizado por reforço multimodal

robot
Geração do resumo em andamento
ME AI Mensagem, Tencent Hunyuan lança UniRL, uma infraestrutura de aprendizado por reforço que suporta modelos multimodais unificados, e anuncia dois novos algoritmos, DRPO e Flow-DPPO. UniRL cobre modelos de difusão/fluxo, modelos de linguagem grande/visão de linguagem e modelos multimodais unificados (como Hunyuan-Image 3 e Bagel) através de um único ciclo de pós-treinamento (gerar→avaliar→vantagem→atualizar→sincronizar). Os modelos e algoritmos são independentes, permitindo combinações de modelos×algoritmos. A estrutura suporta motores de rollout plugáveis (lado de treinamento/SGLang/vLLM-Omni), particionamento FSDP2 e três modos de implantação. FlowDPPO introduz uma estratégia de otimização de domínio de confiança baseada em divergência precisa para modelos de fluxo/difusão; DRPO fornece uma regularização quadrática de ponderação de vantagem suave para RL de LLM. O código já está open source. (Fonte: AiHot)
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado