时间-音色解耦这个设计挺有意思,终于不用听AI配音那种千篇一律的罐头音效了,期待实际玩起来。

币 界 网
币界网消息,小米大模型应用团队发布并开源视频音效生成框架ControlFoley。该模型的重点是「可控性」,能够根据画面配音,也能接受文字描述或参考音频,让声音按创作者意图生成。ControlFoley采用基于cav-mae改造的时空音视频编码器,并引入「时间-音色解耦」策略,确保声音与画面同步。该模型在多个常规视频配音测试中达到开源SOTA水平,项目的技术报告、代码、模型权重和demo均已开放。
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论