从 Whisper 到 DMD2 蒸馏,技术栈叠得挺扎实,多语种和动漫风格泛化对我这种做二创的很有吸引力。

ME News
美团开源LongCat-Video-Avatar1.5数字人框架推理缩至8步
美团 LongCat 团队开源 LongCat-Video-Avatar 1.5,全面发布代码与权重。改用 Whisper-large-v3 提升多语种口型同步与风格泛化,采用多片段滚动推理及基于 DMD2 的少步蒸馏将推理降至 8 步,兼顾速度与保真。经508对源数据、770评估者13240判定与10名专家评估,显著提升时序稳定性、身份一致性与自然口型,并可泛化到动漫与动物风格,原生支持单/多声道音频。MIT 许可,学术使用为主,商用需另核对。
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论