美团开源LongCat-Video-Avatar1.5数字人框架推理缩至8步

robot
摘要生成中
ME AI 消息,据 动察 Beating 监测,美团 LongCat 团队开源音频驱动人像视频生成框架 LongCat-Video-Avatar 1.5,全面开放代码与模型权重。本次升级将 Wav2Vec2 替换为 Whisper-Large 音频编码器,旨在提供更强的长视频身份一致性与更广泛的风格泛化能力。 框架改用 Whisper-large-v3 音频编码器,以提升口型同步与唇形动态。Whisper-large-v3 带来的声学表征大幅提升了多语种和跨语言口型生成的稳定性。 为提升时序稳定性,框架在长视频生成中采用多片段滚动推理,以保持角色身份连贯。推理端引入基于 DMD2 的少步步数蒸馏技术,将生成去噪迭代压缩至 8 步,在推理加速至 8 NFE 的同时平衡推理效率与图像保真度。 模型评估基于 508 组 image-audio source pairs 进行测试。众包评估引入 770 名评估者并收集 13240 次判断,另由 10 名专家从物理合理性、协调性、时序稳定性及身份一致性等维度进行评分。官方展示了与 HeyGen、Kling Avatar 2.0、OmniHuman-1.5 的同场对比,重点提升时序稳定性、身份一致性和自然口型。除了写实人像,框架还可泛化至动漫与动物等风格,并原生支持单声道与多声道音频输入。模型权重以 MIT 协议发布。同时,项目页伦理声明称页面展示所用生成内容仅供学术使用,不允许商业使用。实际商用仍需单独核对权重、代码、素材和生成内容边界。 (来源:BlockBeats)
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 12
  • 2
  • 分享
评论
请输入评论内容
请输入评论内容
GateUser-af0ea0c9
· 24 分钟前
商用还要另谈,大厂开源的老套路了
回复0
HedgeHedgeBaby
· 3小时前
单多声道原生支持,做播客切片的人需要这个
回复0
借贷利率焦虑症
· 3小时前
10名专家评估具体评了啥,论文里细说吗
回复0
光栅化的浪
· 4小时前
MIT 许可好评,学术友好型
回复0
玻璃瓶羽毛
· 4小时前
DMD2蒸馏现在成标配了?感觉各家都在用
回复0
雨后街角的反弹
· 4小时前
动物风格是什么鬼,猫说话?
回复0
GateUser-dd8dffab
· 4小时前
身份一致性提升很关键,之前换角度容易不像同一个人
回复0
GateUser-c29c3db9
· 4小时前
770个评估者13240次判定,这评测规模认真的吗
回复0
Bridge Troll
· 4小时前
动漫风格泛化是彩蛋啊,二创圈要热闹了
回复0
雨后蜡烛
· 4小时前
滚动推理这个设计很妙,长视频不崩了
回复0
查看更多