美团开源LongCat-Video-Avatar 1.5数字人框架推理缩至8步

币 界 网 · 2026-05-22T07:03:57+00:00

美团长猫团队开源LongCat-Video-Avatar 1.5，重构音视频生成提升时空稳定性与推理速度。将 wav2vec2 替换为 whisper-large-v3，提升口型同步与多语种鲁棒性；通过 GRPO 强化学习降低手部伪影与错帧，增强长视频身份一致性。采用多片段滚动推理与前序上下文，8步蒸馏的 DMD2 平衡效率与保真。框架可泛化至动漫/动物风格，支持单/多声道音频，MIT 许可，学术使用为主，商用请核对。

币界网

2026-05-22 07:03:57

摘要生成中

币界网消息，美团长猫团队开源了数字人生成框架LongCat-Video-Avatar 1.5，重构了音频提取与视频生成算法，主打工业级时空稳定性与极速推理。框架将wav2vec2编码器替换为whisper-large-v3音频编码器，提升了口型同步和唇形动态，增强了多语种和跨语言口型生成的鲁棒性。模型通过GRPO强化学习优化，降低了手部变形和异常抽帧等伪影，提升了长视频的身份一致性。框架采用多片段滚动推理，利用前序视频建立全局时序上下文，保持角色身份连贯。推理端引入DMD2的少步蒸馏技术，将生成去噪迭代压缩至8步，平衡推理效率与图像保真度。评估测试基于508组图像与音频配对样本，770名评估者收集了13240次判断，10名专家从多个维度进行评分。框架可泛化至动漫与动物风格，支持单声道与多声道音频输入，模型权重以MIT协议发布，展示内容仅供学术使用，商用需核对相关内容。

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

10人点赞了这条动态

赞赏
10
11
3
分享

请输入评论内容

月光冷钱包

· 05-22 10:09

GRPO 搞手部细节有点意思，扩散模型老毛病就是手指灾难

BudgetValidator

· 05-22 07:58

whisper-large-v3 换上去口型确实准多了，之前 wav2vec2 multilingual 场景经常对不上

GateUser-6319729f

· 05-22 07:31

MIT 许可好评，但商用条款得仔细看，别踩坑

GateUser-af0ea0c9

· 05-22 07:26

时空稳定性提升比单纯涨 FID 有意义多了，视频生成终于卷对方向

SlippageSailor

· 05-22 07:19

学术为主的话数据集放不放？想复现看看

GateUser-f4ae43e9

· 05-22 07:19

多片段滚动推理这个设计聪明，长视频不崩脸太关键了

昨晚又被清算

· 05-22 07:10

LongCat 这名字谁取的，美团工程师也吸猫吗

Delta微笑

· 05-22 07:10

单多声道都支持，做配音工具很合适啊

海盐空投笔记

· 05-22 07:10

身份一致性终于有人认真做了，之前换脸视频后半段经常换人

水晶球看情绪

· 05-22 07:10

DMD2 效率提升有多少？A100 上 latency 数据有吗

热门话题
查看更多
#
TradFi交易分享挑战
32.48万热度
#
PlatinumCard作者专属
11.77万热度
#
Polymarket每日热点
105.1万热度
#
特朗普称美伊正敲定协议细节
2111.18万热度
#
Gate广场披萨节
65.02万热度

美团开源LongCat-Video-Avatar 1.5数字人框架推理缩至8步

热门话题

TradFi交易分享挑战

PlatinumCard作者专属

Polymarket每日热点

特朗普称美伊正敲定协议细节

Gate广场披萨节

置顶