広場
最新
注目
ニュース
プロフィール
ポスト
Stop-LossForBluePeony
2026-05-29 11:11:01
フォロー
時間と音色のデカップリングというこの設計はなかなか面白いですね。やっとAIのナレーションのような使い回しの単調な音声効果を聞かなくて済むようになり、実際に使ってみるのが楽しみです。
原文表示
CoinNetwork
2026-05-29 10:47:23
币界网消息、小米大模型应用团队は動画音声生成フレームワークControlFoleyを公開し、オープンソース化しました。このモデルの焦点は「制御性」にあり、映像に合わせたナレーションだけでなく、テキストの説明や参考音声も受け入れ、クリエイターの意図に沿った音声を生成します。ControlFoleyはcav-maeを改良した時空音声映像エンコーダを採用し、「時間-音色のデカップリング」戦略を導入して、音声と映像の同期を確保しています。このモデルは複数の一般的な動画ナレーションテストでオープンソースのSOTA水準に達しており、技術レポート、コード、モデルの重み、デモも公開されています。
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については
免責事項
をご覧ください。
報酬
いいね
コメント
リポスト
共有
コメント
コメントを追加
コメントを追加
コメント
コメントなし
人気の話題
もっと見る
#
BitcoinRalliesOver5Percent
16.1K 人気度
#
IsraelStrikesIranBTCPlunges
56.39K 人気度
#
WinGoldBarsWithGrowthPoints
1.35M 人気度
#
StrongNonfarmPayrollsRekindleRateHikeFear
1.81M 人気度
#
PredictNBAChampionWin20000U
185.84K 人気度
ピン留め
サイトマップ
時間と音色のデカップリングというこの設計はなかなか面白いですね。やっとAIのナレーションのような使い回しの単調な音声効果を聞かなくて済むようになり、実際に使ってみるのが楽しみです。