美团开源LongCat-Video-Avatar 1.5数字人框架推理缩至8步

robot
摘要生成中
币界网消息,美团长猫团队开源了数字人生成框架LongCat-Video-Avatar 1.5,重构了音频提取与视频生成算法,主打工业级时空稳定性与极速推理。框架将wav2vec2编码器替换为whisper-large-v3音频编码器,提升了口型同步和唇形动态,增强了多语种和跨语言口型生成的鲁棒性。模型通过GRPO强化学习优化,降低了手部变形和异常抽帧等伪影,提升了长视频的身份一致性。框架采用多片段滚动推理,利用前序视频建立全局时序上下文,保持角色身份连贯。推理端引入DMD2的少步蒸馏技术,将生成去噪迭代压缩至8步,平衡推理效率与图像保真度。评估测试基于508组图像与音频配对样本,770名评估者收集了13240次判断,10名专家从多个维度进行评分。框架可泛化至动漫与动物风格,支持单声道与多声道音频输入,模型权重以MIT协议发布,展示内容仅供学术使用,商用需核对相关内容。
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 11
  • 3
  • 分享
评论
请输入评论内容
请输入评论内容
月光冷钱包
· 05-22 10:09
GRPO 搞手部细节有点意思,扩散模型老毛病就是手指灾难
回复0
BudgetValidator
· 05-22 07:58
whisper-large-v3 换上去口型确实准多了,之前 wav2vec2 multilingual 场景经常对不上
回复0
GateUser-6319729f
· 05-22 07:31
MIT 许可好评,但商用条款得仔细看,别踩坑
回复0
GateUser-af0ea0c9
· 05-22 07:26
时空稳定性提升比单纯涨 FID 有意义多了,视频生成终于卷对方向
回复0
SlippageSailor
· 05-22 07:19
学术为主的话数据集放不放?想复现看看
回复0
GateUser-f4ae43e9
· 05-22 07:19
多片段滚动推理这个设计聪明,长视频不崩脸太关键了
回复0
昨晚又被清算
· 05-22 07:10
LongCat 这名字谁取的,美团工程师也吸猫吗
回复0
Delta微笑
· 05-22 07:10
单多声道都支持,做配音工具很合适啊
回复0
海盐空投笔记
· 05-22 07:10
身份一致性终于有人认真做了,之前换脸视频后半段经常换人
回复0
水晶球看情绪
· 05-22 07:10
DMD2 效率提升有多少?A100 上 latency 数据有吗
回复0
查看更多