币界网消息,美团长猫团队开源了数字人生成框架LongCat-Video-Avatar 1.5,重构了音频提取与视频生成算法,主打工业级时空稳定性与极速推理。 框架将wav2vec2编码器替换为whisper-large-v3音频编码器,提升了口型同步和唇形动态,增强了多语种和跨语言口型生成的鲁棒性。 模型通过GRPO强化学习优化,降低了手部变形和异常抽帧等伪影,提升了长视频的身份一致性。 框架采用多片段滚动推理,利用前序视频建立全局时序上下文,保持角色身份连贯。 推理端引入DMD2的少步蒸馏技术,将生成去噪迭代压缩至8步,平衡推理效率与图像保真度。 评估测试基于508组图像与音频配对样本,770名评估者收集了13240次判断,10名专家从多个维度进行评分。 框架可泛化至动漫与动物风格,支持单声道与多声道音频输入,模型权重以MIT协议发布,展示内容仅供学术使用,商用需核对相关内容。
美团オープンソースLongCat-Video-Avatar 1.5デジタル人フレームワーク推論を8ステップに短縮
框架将wav2vec2编码器替换为whisper-large-v3音频编码器,提升了口型同步和唇形动态,增强了多语种和跨语言口型生成的鲁棒性。
模型通过GRPO强化学习优化,降低了手部变形和异常抽帧等伪影,提升了长视频的身份一致性。
框架采用多片段滚动推理,利用前序视频建立全局时序上下文,保持角色身份连贯。
推理端引入DMD2的少步蒸馏技术,将生成去噪迭代压缩至8步,平衡推理效率与图像保真度。
评估测试基于508组图像与音频配对样本,770名评估者收集了13240次判断,10名专家从多个维度进行评分。
框架可泛化至动漫与动物风格,支持单声道与多声道音频输入,模型权重以MIT协议发布,展示内容仅供学术使用,商用需核对相关内容。
以前のフェイススワップ動画の後半はしばしば人物が変わっていた。