Microsoft World-R1: Ensinar modelos de vídeo com aprendizagem por reforço a "compreender" 3D, sem alterar a arquitetura, PSNR aumenta 10dB

robot
Geração de resumo em curso

AIMPACT mensagem, 28 de abril (UTC+8), de acordo com a monitorização do Beating, o Microsoft Research e a equipa da Universidade de Zhejiang propuseram o World-R1, usando aprendizagem por reforço para fazer o modelo de vídeo gerado por texto aprender a consistência geométrica 3D, sem modificar a arquitetura do modelo nem depender de conjuntos de dados 3D. Ideia central: após gerar o vídeo, usar o modelo básico 3D pré-treinado Depth Anything 3 para reconstruir a cena em Gaussian 3D (3DGS), depois renderizar de uma nova perspetiva e comparar com o vídeo original, combinando o erro de reconstrução, o desvio de trajetória e a credibilidade semântica da nova perspetiva (avaliada pelo Qwen3-VL) num sinal de recompensa, que é alimentado de volta ao modelo de vídeo através do Flow-GRPO (um algoritmo de aprendizagem por reforço adaptado ao modelo de correspondência de fluxo). O modelo base é o open source Wan 2.1 (1.3B e 14B), treinando separadamente o World-R1-Small e o World-R1-Large. Os dados de treino consistiram em cerca de 3000 prompts de texto puro, gerados pelo Gemini, sem usar qualquer ativo 3D. Durante o treino, a cada 100 passos, uma rodada de “ajuste dinâmico” é inserida, temporariamente desativando a recompensa 3D e mantendo apenas a recompensa de qualidade de imagem, para evitar que o modelo sufoque o movimento de personagens e outros movimentos não rígidos na busca por rigidez geométrica. Quanto ao índice de consistência 3D, o PSNR (relação sinal-ruído de pico) do World-R1-Large aumentou 7,91dB em relação ao Wan 2.1 14B base, e a versão Small aumentou 10,23dB. A qualidade de vídeo geral do VBench não diminuiu e até melhorou. Em uma avaliação cega com 25 pessoas, a taxa de vitória na consistência geométrica foi de 92%, e a preferência geral de 86%. O código já está open source no GitHub, sob licença CC BY-NC-SA 4.0. (Fonte: BlockBeats)

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar