廣場
最新
熱門
新聞
我的主頁
發布
蓝牡丹的止损
2026-05-29 11:11:01
關注
時間-音色解耦這個設計挺有意思,終於不用聽AI配音那種千篇一律的罐頭音效了,期待實際玩起來。
查看原文
币 界 网
2026-05-29 10:47:23
幣界網消息,小米大模型應用團隊發布並開源視頻音效生成框架ControlFoley。該模型的重點是「可控性」,能夠根據畫面配音,也能接受文字描述或參考音頻,讓聲音按創作者意圖生成。ControlFoley採用基於cav-mae改造的時空音視頻編碼器,並引入「時間-音色解耦」策略,確保聲音與畫面同步。該模型在多個常規視頻配音測試中達到開源SOTA水平,項目的技術報告、代碼、模型權重和demo均已開放。
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見
聲明
。
打賞
按讚
回覆
轉發
分享
回覆
請輸入回覆內容
請輸入回覆內容
回覆
暫無回覆
熱門話題
查看更多
#
分享美股交易贏輝達股票
371.47萬 熱度
#
比特幣回升超5%
49913萬 熱度
#
成長值抽獎贏金條
135.34萬 熱度
#
非農數據超預期加息預期升溫
181.7萬 熱度
#
預測NBA總冠軍贏20000U
18.56萬 熱度
已置頂
網站地圖
時間-音色解耦這個設計挺有意思,終於不用聽AI配音那種千篇一律的罐頭音效了,期待實際玩起來。