美团 LongCat チームは LongCat-Video-Avatar 1.5 をオープンソース化し、コードと重みを全面的に公開しました。 Whisper-large-v3 を採用して多言語の口型同期とスタイルの汎用性を向上させ、多断片のローリング推論と DMD2 に基づく少ステップ蒸留により推論を 8 ステップに削減し、速度と忠実度の両立を実現しました。 508 のソースデータ、770 の評価者による 13240 の判定、10 名の専門家による評価により、時間的安定性、アイデンティティの一貫性、自然な口型が著しく向上し、アニメや動物スタイルにも汎用化可能であり、ネイティブにシングル/マルチチャネルの音声に対応しています。 MIT ライセンス、学術利用を主目的とし、商用利用には別途確認が必要です。

MeNews

2026-05-22 08:04:01

概要作成中

ME AI メッセージによると、動察Beatingの監視により、Meituan LongCatチームは音声ドライバと人物動画生成フレームワークLongCat-Video-Avatar 1.5のコードとモデルウェイトをオープンソース化しました。今回のアップデートでは、Wav2Vec2をWhisper-Large音声エンコーダに置き換え、より強力な長時間動画のアイデンティティ一貫性とより広範なスタイルの汎化能力を提供します。フレームワークはWhisper-large-v3音声エンコーダに変更され、口型同期と唇の動きのダイナミクスを向上させました。Whisper-large-v3による音響表現は、多言語および跨言語の口型生成の安定性を大幅に向上させています。時系列の安定性を高めるために、長時間動画生成では複数のセグメントを用いたローリング推論を採用し、キャラクターのアイデンティティの連続性を維持します。推論側ではDMD2に基づく少ステップ蒸留技術を導入し、生成のノイズ除去反復を8ステップに圧縮し、推論速度を8NFEに高速化するとともに、推論効率と画像の忠実度のバランスを取っています。モデル評価は508組の画像と音声ソースペアを用いて行われました。クラウドソーシング評価には770名の評価者を参加させ、13240回の判断を収集。さらに、10名の専門家が物理的合理性、調和性、時系列の安定性、アイデンティティの一貫性などの観点から評価を行いました。公式ではHeyGen、Kling Avatar 2.0、OmniHuman-1.5との比較も公開され、時系列の安定性、アイデンティティの一貫性、自然な口型の向上に重点を置いています。リアルな人物像だけでなく、アニメや動物などのスタイルにも汎化でき、モノラルおよびマルチチャンネルの音声入力もネイティブにサポートします。モデルのウェイトはMITライセンスで公開されています。同時に、プロジェクトページの倫理声明では、掲載された生成コンテンツは学術目的のみに使用され、商用利用は許可されていないと明記しています。実際の商用には、ウェイト、コード、素材、生成コンテンツの境界を個別に確認する必要があります。（出典：BlockBeats）

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

10 いいね

報酬
10
12
2
共有

コメントを追加

GateUser-af0ea0c9

· 5時間前

商用は別途相談が必要、大手企業のオープンソースの古いやり方だ。

原文表示返信0

HedgeHedgeBaby

· 8時間前

単一および多声道のネイティブサポート、ポッドキャストの切り出しを行う人に必要です

原文表示返信0

LendingRateAnxiety

· 9時間前

10人の専門家は具体的に何を評価したのか、論文の中で詳しく述べられていますか

原文表示返信0

TheWaveOfRasterization

· 9時間前

MITライセンス好評、学術に優しい

原文表示返信0

GlassBottleFeather

· 9時間前

DMD2蒸留は今や標準装備になっていますか？みんな使っているように感じます。

原文表示返信0

ReboundAtTheStreetCornerAfter

· 10時間前

动物风格是什么鬼，猫说话？

返信0

GateUser-dd8dffab

· 10時間前

アイデンティティの一貫性を高めることが非常に重要であり、以前は視点を変えると同じ人に見えなくなることがありました

原文表示返信0

GateUser-c29c3db9

· 10時間前

770人の評価者が13240回の判定を行った、この評価規模は本気ですか

原文表示返信0

BridgeTroll

· 10時間前

アニメ風の一般化は隠し要素だよ、二次創作界隈が賑やかになるね

原文表示返信0

CandleAfterTheRain

· 10時間前

スクロール推論のこの設計は素晴らしい、長い動画が崩れなくなった

原文表示返信0

人気の話題
もっと見る
#
TradfiTradingChallenge
266.13K 人気度
#
PlatinumCardCreatorExclusive
79.05K 人気度
#
IsraelStrikesIranBTCPlunges
48.62K 人気度
#
#DailyPolymarketHotspot
1.03M 人気度
#
GateSquarePizzaDay
607.97K 人気度

ピン留め

サイトマップ

美团オープンソースLongCat-Video-Avatar1.5デジタル人フレームワーク推論を8ステップに短縮

人気の話題

TradfiTradingChallenge

PlatinumCardCreatorExclusive

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

GateSquarePizzaDay

ピン留め