Apenas na fase de raciocínio é que se faz o planejamento, o modelo base não precisa ser alterado. Essa otimização plug-and-play, se a capacidade de processamento melhorar um pouco, a geração de vídeos longos realmente poderá passar de uma alquimia para uma engenharia.

Ver original
BlockBeatNews
Introdução à busca AlphaGo, novo quadro de geração de vídeos MCTS, duração do vídeo longa supera Sora
Esta tese propõe a introdução do quadro de planejamento na inferência, que incorpora uma busca em árvore de Monte Carlo de múltiplas árvores durante a fase de inferência, tratando a geração de vídeos longos como um problema de decisão sequencial, avaliando várias fragmentações por meio de retrocesso prospectivo e propagação de recompensas, aliviando significativamente o deslocamento semântico e o acúmulo de erros na geração por blocos. A estrutura de múltiplas árvores aumenta a eficiência da busca e pode servir como uma solução de otimização completamente plugável durante a inferência, sem necessidade de ajuste fino do modelo base. Nos experimentos com Cosmos-Predict2, foi possível gerar vídeos contínuos de alta qualidade com mais de 20 segundos, superando métodos de busca gananciosa/bound e Best-of-N em métricas como persistência de objetos, coerência temporal e alinhamento com texto; em comparação com Sora e Kling, houve melhorias de 18% e 47% no tempo de duração, mantendo a qualidade visual. Apesar do alto custo computacional, com melhorias na infraestrutura e hardware, essa abordagem tem potencial para impulsionar a geração de vídeos longos rumo à aplicação prática.
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado