推理阶段才上规划,底座模型不用动,这种即插即用的优化要是算力下来点,长视频生成真能从炼丹变工程

区块律动
引入AlphaGo搜索,全新MCTS视频生成框架长视频时长超Sora
该论文提出在推理阶段引入多树蒙特卡洛树搜索的 Planning at Inference 框架,将长视频生成视为顺序决策问题,通过前瞻回溯和奖励反向传播评估多种片段,显著缓解分块生成的语义漂移与误差累积。多树结构提高搜索效率,且可作为完全插拔的推理时优化方案,无需微调底座模型。在 Cosmos-Predict2 实验中,生成超过 20 秒的高质量连贯视频,在物体持久性、时序连贯和文本对齐等指标上超越贪婪/束搜索与 Best-of-N;相较 Sora、Kling,时长提升 18% 和 47%,画质相当。尽管算力成本高,若底座与硬件提升,这一路径有望推动长视频生成走向工程化。
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论