Apenas na fase de raciocínio é que se faz o planeamento, o modelo base não precisa de ser alterado. Se esta otimização plug-and-play fosse mais eficiente em termos de poder de processamento, a geração de vídeos longos poderia realmente passar de uma tarefa de "feitiçaria" para uma tarefa de engenharia.

Ver original
BlockBeatNews
Introdução à pesquisa AlphaGo, novo quadro de geração de vídeos MCTS com duração de vídeo superior ao Sora
Este artigo propõe a introdução de uma estrutura de Planeamento na Inferência que incorpora múltiplas árvores de busca de Monte Carlo, tratando a geração de vídeos longos como um problema de decisão sequencial, através de retrospetiva antecipada e propagação de recompensas para avaliar várias fragmentações, aliviando significativamente o deslocamento semântico e o acúmulo de erros na geração por blocos. A estrutura de múltiplas árvores aumenta a eficiência da busca e pode servir como uma solução de otimização completamente plugável durante a inferência, sem necessidade de ajuste fino do modelo base. Nos experimentos com Cosmos-Predict2, foi possível gerar vídeos coerentes de alta qualidade com mais de 20 segundos, superando métodos de busca gananciosa/bound e Best-of-N em métricas como persistência de objetos, coerência temporal e alinhamento com texto; em comparação com Sora e Kling, houve melhorias de 18% e 47% no tempo de duração, mantendo a qualidade visual. Apesar do alto custo computacional, com melhorias na infraestrutura e hardware, essa abordagem tem potencial para impulsionar a geração de vídeos longos rumo à aplicação prática.
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado