美团オープンソースLongCat-Video-Avatar1.5デジタル人フレームワーク推論を8ステップに短縮

robot
概要作成中
ME AI メッセージによると、動察Beatingの監視により、Meituan LongCatチームは音声ドライバと人物動画生成フレームワークLongCat-Video-Avatar 1.5のコードとモデルウェイトをオープンソース化しました。今回のアップデートでは、Wav2Vec2をWhisper-Large音声エンコーダに置き換え、より強力な長時間動画のアイデンティティ一貫性とより広範なスタイルの汎化能力を提供します。 フレームワークはWhisper-large-v3音声エンコーダに変更され、口型同期と唇の動きのダイナミクスを向上させました。Whisper-large-v3による音響表現は、多言語および跨言語の口型生成の安定性を大幅に向上させています。 時系列の安定性を高めるために、長時間動画生成では複数のセグメントを用いたローリング推論を採用し、キャラクターのアイデンティティの連続性を維持します。推論側ではDMD2に基づく少ステップ蒸留技術を導入し、生成のノイズ除去反復を8ステップに圧縮し、推論速度を8NFEに高速化するとともに、推論効率と画像の忠実度のバランスを取っています。 モデル評価は508組の画像と音声ソースペアを用いて行われました。クラウドソーシング評価には770名の評価者を参加させ、13240回の判断を収集。さらに、10名の専門家が物理的合理性、調和性、時系列の安定性、アイデンティティの一貫性などの観点から評価を行いました。公式ではHeyGen、Kling Avatar 2.0、OmniHuman-1.5との比較も公開され、時系列の安定性、アイデンティティの一貫性、自然な口型の向上に重点を置いています。リアルな人物像だけでなく、アニメや動物などのスタイルにも汎化でき、モノラルおよびマルチチャンネルの音声入力もネイティブにサポートします。モデルのウェイトはMITライセンスで公開されています。同時に、プロジェクトページの倫理声明では、掲載された生成コンテンツは学術目的のみに使用され、商用利用は許可されていないと明記しています。実際の商用には、ウェイト、コード、素材、生成コンテンツの境界を個別に確認する必要があります。(出典:BlockBeats)
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • 12
  • 2
  • 共有
コメント
コメントを追加
コメントを追加
GateUser-af0ea0c9
· 5時間前
商用は別途相談が必要、大手企業のオープンソースの古いやり方だ。
原文表示返信0
HedgeHedgeBaby
· 8時間前
単一および多声道のネイティブサポート、ポッドキャストの切り出しを行う人に必要です
原文表示返信0
LendingRateAnxiety
· 9時間前
10人の専門家は具体的に何を評価したのか、論文の中で詳しく述べられていますか
原文表示返信0
TheWaveOfRasterization
· 9時間前
MITライセンス好評、学術に優しい
原文表示返信0
GlassBottleFeather
· 9時間前
DMD2蒸留は今や標準装備になっていますか? みんな使っているように感じます。
原文表示返信0
ReboundAtTheStreetCornerAfter
· 10時間前
动物风格是什么鬼,猫说话?
返信0
GateUser-dd8dffab
· 10時間前
アイデンティティの一貫性を高めることが非常に重要であり、以前は視点を変えると同じ人に見えなくなることがありました
原文表示返信0
GateUser-c29c3db9
· 10時間前
770人の評価者が13240回の判定を行った、この評価規模は本気ですか
原文表示返信0
BridgeTroll
· 10時間前
アニメ風の一般化は隠し要素だよ、二次創作界隈が賑やかになるね
原文表示返信0
CandleAfterTheRain
· 10時間前
スクロール推論のこの設計は素晴らしい、長い動画が崩れなくなった
原文表示返信0
もっと見る
  • ピン留め