時間-音色解耦這個設計挺有意思,終於不用聽AI配音那種千篇一律的罐頭音效了,期待實際玩起來。

查看原文
币 界 网
幣界網消息,小米大模型應用團隊發布並開源視頻音效生成框架ControlFoley。該模型的重點是「可控性」,能夠根據畫面配音,也能接受文字描述或參考音頻,讓聲音按創作者意圖生成。ControlFoley採用基於cav-mae改造的時空音視頻編碼器,並引入「時間-音色解耦」策略,確保聲音與畫面同步。該模型在多個常規視頻配音測試中達到開源SOTA水平,項目的技術報告、代碼、模型權重和demo均已開放。
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆