广场
最新
热门
资讯
我的主页
发布
蓝牡丹的止损
2026-05-29 11:11:01
关注
时间-音色解耦这个设计挺有意思,终于不用听AI配音那种千篇一律的罐头音效了,期待实际玩起来。
币 界 网
2026-05-29 10:47:23
币界网消息,小米大模型应用团队发布并开源视频音效生成框架ControlFoley。该模型的重点是「可控性」,能够根据画面配音,也能接受文字描述或参考音频,让声音按创作者意图生成。ControlFoley采用基于cav-mae改造的时空音视频编码器,并引入「时间-音色解耦」策略,确保声音与画面同步。该模型在多个常规视频配音测试中达到开源SOTA水平,项目的技术报告、代码、模型权重和demo均已开放。
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见
声明
。
赞赏
点赞
评论
转发
分享
评论
请输入评论内容
请输入评论内容
评论
暂无评论
热门话题
查看更多
#
美股AI概念股普涨
328.88万 热度
#
Strategy低位加仓1550枚BTC
287.56万 热度
#
成长值抽奖赢金条
135.32万 热度
#
非农数据超预期加息预期升温
181.76万 热度
#
预测NBA总冠军赢20,000U
18.58万 热度
置顶
网站地图
时间-音色解耦这个设计挺有意思,终于不用听AI配音那种千篇一律的罐头音效了,期待实际玩起来。