時間と音色のデカップリングというこの設計はなかなか面白いですね。やっとAIのナレーションのような使い回しの単調な音声効果を聞かなくて済むようになり、実際に使ってみるのが楽しみです。

原文表示
CoinNetwork
币界网消息、小米大模型应用团队は動画音声生成フレームワークControlFoleyを公開し、オープンソース化しました。このモデルの焦点は「制御性」にあり、映像に合わせたナレーションだけでなく、テキストの説明や参考音声も受け入れ、クリエイターの意図に沿った音声を生成します。ControlFoleyはcav-maeを改良した時空音声映像エンコーダを採用し、「時間-音色のデカップリング」戦略を導入して、音声と映像の同期を確保しています。このモデルは複数の一般的な動画ナレーションテストでオープンソースのSOTA水準に達しており、技術レポート、コード、モデルの重み、デモも公開されています。
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし