技術報告、權重、Demo 全部放出來了,與 Kling-Foley 也不相上下,開源社區終於有一個能用的視頻音效框架了

查看原文
区块律动
小米開源視頻配音模型ControlFoley,聲音想怎麼配由個人決定
Beating監測下,小米團隊開源視頻音效框架ControlFoley,強調可控性:按畫面、文本或參考音頻生成聲音,並可改聲風格同時保持音畫同步。底層採用改造自CAV-MAE的時空音視頻編碼器,實施時間-音色解耦。多任務評估達到開源SOTA,且在與Kling-Foley的對比中具競爭力,但在Kling-Audio-Eval和MovieGen-Audio-Bench的部分KL指標上仍有差距。項目已公開技術報告、代碼、權重與Demo。
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆
  • 已置頂