ME AI メッセージによると、動察Beatingの監視により、Meituan LongCatチームは音声ドライバと人物動画生成フレームワークLongCat-Video-Avatar 1.5のコードとモデルウェイトをオープンソース化しました。今回のアップデートでは、Wav2Vec2をWhisper-Large音声エンコーダに置き換え、より強力な長時間動画のアイデンティティ一貫性とより広範なスタイルの汎化能力を提供します。 フレームワークはWhisper-large-v3音声エンコーダに変更され、口型同期と唇の動きのダイナミクスを向上させました。Whisper-large-v3による音響表現は、多言語および跨言語の口型生成の安定性を大幅に向上させています。 時系列の安定性を高めるために、長時間動画生成では複数のセグメントを用いたローリング推論を採用し、キャラクターのアイデンティティの連続性を維持します。推論側ではDMD2に基づく少ステップ蒸留技術を導入し、生成のノイズ除去反復を8ステップに圧縮し、推論速度を8NFEに高速化するとともに、推論効率と画像の忠実度のバランスを取っています。 モデル評価は508組の画像と音声ソースペアを用いて行われました。クラウドソーシング評価には770名の評価者を参加させ、13240回の判断を収集。さらに、10名の専門家が物理的合理性、調和性、時系列の安定性、アイデンティティの一貫性などの観点から評価を行いました。公式ではHeyGen、Kling Avatar 2.0、OmniHuman-1.5との比較も公開され、時系列の安定性、アイデンティティの一貫性、自然な口型の向上に重点を置いています。リアルな人物像だけでなく、アニメや動物などのスタイルにも汎化でき、モノラルおよびマルチチャンネルの音声入力もネイティブにサポートします。モデルのウェイトはMITライセンスで公開されています。同時に、プロジェクトページの倫理声明では、掲載された生成コンテンツは学術目的のみに使用され、商用利用は許可されていないと明記しています。実際の商用には、ウェイト、コード、素材、生成コンテンツの境界を個別に確認する必要があります。(出典:BlockBeats)
美团オープンソースLongCat-Video-Avatar1.5デジタル人フレームワーク推論を8ステップに短縮