美团开源LongCat-Video-Avatar1.5数字人框架推理缩至8步

ME News · 2026-05-22T08:04:01+00:00

美团 LongCat 团队开源 LongCat-Video-Avatar 1.5，全面发布代码与权重。改用 Whisper-large-v3 提升多语种口型同步与风格泛化，采用多片段滚动推理及基于 DMD2 的少步蒸馏将推理降至 8 步，兼顾速度与保真。经508对源数据、770评估者13240判定与10名专家评估，显著提升时序稳定性、身份一致性与自然口型，并可泛化到动漫与动物风格，原生支持单/多声道音频。MIT 许可，学术使用为主，商用需另核对。

ME News

2026-05-22 08:04:01

摘要生成中

ME AI 消息，据动察 Beating 监测，美团 LongCat 团队开源音频驱动人像视频生成框架 LongCat-Video-Avatar 1.5，全面开放代码与模型权重。本次升级将 Wav2Vec2 替换为 Whisper-Large 音频编码器，旨在提供更强的长视频身份一致性与更广泛的风格泛化能力。框架改用 Whisper-large-v3 音频编码器，以提升口型同步与唇形动态。Whisper-large-v3 带来的声学表征大幅提升了多语种和跨语言口型生成的稳定性。为提升时序稳定性，框架在长视频生成中采用多片段滚动推理，以保持角色身份连贯。推理端引入基于 DMD2 的少步步数蒸馏技术，将生成去噪迭代压缩至 8 步，在推理加速至 8 NFE 的同时平衡推理效率与图像保真度。模型评估基于 508 组 image-audio source pairs 进行测试。众包评估引入 770 名评估者并收集 13240 次判断，另由 10 名专家从物理合理性、协调性、时序稳定性及身份一致性等维度进行评分。官方展示了与 HeyGen、Kling Avatar 2.0、OmniHuman-1.5 的同场对比，重点提升时序稳定性、身份一致性和自然口型。除了写实人像，框架还可泛化至动漫与动物等风格，并原生支持单声道与多声道音频输入。模型权重以 MIT 协议发布。同时，项目页伦理声明称页面展示所用生成内容仅供学术使用，不允许商业使用。实际商用仍需单独核对权重、代码、素材和生成内容边界。（来源：BlockBeats）

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

8人点赞了这条动态

赞赏
8
12
2
分享

请输入评论内容

GateUser-af0ea0c9

· 24 分钟前

商用还要另谈，大厂开源的老套路了

HedgeHedgeBaby

· 3小时前

单多声道原生支持，做播客切片的人需要这个

借贷利率焦虑症

· 3小时前

10名专家评估具体评了啥，论文里细说吗

光栅化的浪

· 4小时前

MIT 许可好评，学术友好型

玻璃瓶羽毛

· 4小时前

DMD2蒸馏现在成标配了？感觉各家都在用

雨后街角的反弹

· 4小时前

动物风格是什么鬼，猫说话？

GateUser-dd8dffab

· 4小时前

身份一致性提升很关键，之前换角度容易不像同一个人

GateUser-c29c3db9

· 4小时前

770个评估者13240次判定，这评测规模认真的吗

Bridge Troll

· 4小时前

动漫风格泛化是彩蛋啊，二创圈要热闹了

雨后蜡烛

· 4小时前

滚动推理这个设计很妙，长视频不崩了

热门话题
查看更多
#
TradFi交易分享挑战
25.62万热度
#
PlatinumCard作者专属
6.66万热度
#
Polymarket每日热点
103.11万热度
#
特朗普称美伊正敲定协议细节
2109.24万热度
#
Gate广场披萨节
172.75万热度

美团开源LongCat-Video-Avatar1.5数字人框架推理缩至8步

热门话题

TradFi交易分享挑战

PlatinumCard作者专属

Polymarket每日热点

特朗普称美伊正敲定协议细节

Gate广场披萨节

置顶