从wav2vec2切到whisper-large-v3,多语种口型同步的鲁棒性提升明显,学术商用分界线得看清

币 界 网
美团开源LongCat-Video-Avatar 1.5数字人框架推理缩至8步
美团长猫团队开源LongCat-Video-Avatar 1.5,重构音视频生成提升时空稳定性与推理速度。将 wav2vec2 替换为 whisper-large-v3,提升口型同步与多语种鲁棒性;通过 GRPO 强化学习降低手部伪影与错帧,增强长视频身份一致性。采用多片段滚动推理与前序上下文,8步蒸馏的 DMD2 平衡效率与保真。框架可泛化至动漫/动物风格,支持单/多声道音频,MIT 许可,学术使用为主,商用请核对。
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论