技术报告、权重、Demo 全放出来,对比 Kling-Foley 也不虚,开源社区终于有个能打的视频音效框架了

区块律动
小米开源视频配音模型ControlFoley,声音想怎么配由个人决定
Beating监测下,小米团队开源视频音效框架ControlFoley,强调可控性:按画面、文本或参考音频生成声音,并可改声风格同时保持音画同步。底层采用改造自CAV-MAE的时空音视频编码器,实施时间-音色解耦。多任务评估达到开源SOTA,且在与 Kling-Foley 的对比中具竞争力,但在 Kling-Audio-Eval 和 MovieGen-Audio-Bench 的部分 KL 指标上仍有差距。项目已公开技术报告、代码、权重与Demo。
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论
  • 置顶