技術レポート、重み、デモをすべて公開し、Kling-Foleyと比べても見劣りしない、オープンソースコミュニティにやっと動画音響フレームワークの実力が示せるものが登場した。

原文表示
BlockBeatNews
Xiaomiがオープンソースの動画ナレーションモデルControlFoleyを公開、声の調整は個人の自由に任せられる
Beating監測下、小米チームはオープンソースの動画音響フレームワークControlFoleyを開発し、可制御性を強調:映像、テキスト、または参照音声に基づいて音を生成し、声のスタイルを変更しながら音と映像の同期を維持できる。基盤にはCAV-MAEを改良した時空間音声映像符号化器を採用し、時間と音色のデカップリングを実現。マルチタスク評価はオープンソースのSOTAに達し、Kling-Foleyとの比較でも競争力を持つが、Kling-Audio-EvalやMovieGen-Audio-Benchの一部KL指標ではまだ差がある。プロジェクトは技術レポート、コード、重み、デモを公開済み。
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし