美团オープンソースLongCat-Video-Avatar 1.5デジタル人フレームワーク推論を8ステップに短縮

robot
概要作成中
币界网消息,美团长猫团队开源了数字人生成框架LongCat-Video-Avatar 1.5,重构了音频提取与视频生成算法,主打工业级时空稳定性与极速推理。
框架将wav2vec2编码器替换为whisper-large-v3音频编码器,提升了口型同步和唇形动态,增强了多语种和跨语言口型生成的鲁棒性。
模型通过GRPO强化学习优化,降低了手部变形和异常抽帧等伪影,提升了长视频的身份一致性。
框架采用多片段滚动推理,利用前序视频建立全局时序上下文,保持角色身份连贯。
推理端引入DMD2的少步蒸馏技术,将生成去噪迭代压缩至8步,平衡推理效率与图像保真度。
评估测试基于508组图像与音频配对样本,770名评估者收集了13240次判断,10名专家从多个维度进行评分。
框架可泛化至动漫与动物风格,支持单声道与多声道音频输入,模型权重以MIT协议发布,展示内容仅供学术使用,商用需核对相关内容。
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • 11
  • 3
  • 共有
コメント
コメントを追加
コメントを追加
MoonlightColdWallet
· 05-22 10:09
GRPO 手の細部の描写はちょっと面白い、拡散モデルの古い欠点は指の災難だ
原文表示返信0
BudgetValidator
· 05-22 07:58
whisper-large-v3 を適用すると口の動きが確かにかなり正確になった。以前の wav2vec2 multilingual のシナリオではしばしば合わなかった。
原文表示返信0
GateUser-6319729f
· 05-22 07:31
MITライセンスは好評ですが、商用条項は注意深く確認して、落とし穴を避けてください
原文表示返信0
GateUser-af0ea0c9
· 05-22 07:26
時空の安定性向上は単純にFIDを上げるよりもはるかに意味がある、ビデオ生成がついに正しい方向に進んでいる
原文表示返信0
SlippageSailor
· 05-22 07:19
学術を重視する場合、データセットを含めるべきか?再現してみたい
原文表示返信0
GateUser-f4ae43e9
· 05-22 07:19
多片段ロール推論のこの設計は賢いです。長い動画で顔が崩れないことが非常に重要です。
原文表示返信0
GotLiquidatedAgainLastNight.
· 05-22 07:10
LongCat この名前は誰がつけたのか、メイトゥンのエンジニアも猫を吸うのか
原文表示返信0
DeltaSmile
· 05-22 07:10
ステレオとマルチチャンネルの両方に対応しており、ナレーションツールに非常に適しているですね
原文表示返信0
SeaSaltAirdropNotes
· 05-22 07:10
アイデンティティの一貫性がついに真剣に取り組まれた。
以前のフェイススワップ動画の後半はしばしば人物が変わっていた。
原文表示返信0
CrystalBallForSentiment
· 05-22 07:10
DMD2 の効率向上はどのくらいですか?A100 上のレイテンシーデータはありますか
原文表示返信0
もっと見る
  • ピン留め