Introdução à busca AlphaGo, novo quadro de geração de vídeos MCTS, duração do vídeo longa supera Sora
Esta tese propõe a introdução do quadro de planejamento na inferência, que incorpora uma busca em árvore de Monte Carlo de múltiplas árvores durante a fase de inferência, tratando a geração de vídeos longos como um problema de decisão sequencial, avaliando várias fragmentações por meio de retrocesso prospectivo e propagação de recompensas, aliviando significativamente o deslocamento semântico e o acúmulo de erros na geração por blocos. A estrutura de múltiplas árvores aumenta a eficiência da busca e pode servir como uma solução de otimização completamente plugável durante a inferência, sem necessidade de ajuste fino do modelo base. Nos experimentos com Cosmos-Predict2, foi possível gerar vídeos contínuos de alta qualidade com mais de 20 segundos, superando métodos de busca gananciosa/bound e Best-of-N em métricas como persistência de objetos, coerência temporal e alinhamento com texto; em comparação com Sora e Kling, houve melhorias de 18% e 47% no tempo de duração, mantendo a qualidade visual. Apesar do alto custo computacional, com melhorias na infraestrutura e hardware, essa abordagem tem potencial para impulsionar a geração de vídeos longos rumo à aplicação prática.