手动开启有点麻烦,但省下来的 latency 是真香

币 界 网
币界网消息,草稿模型开始退场,mtp(multi-token prediction,多token预测)推测解码能力开始在本地推理前台应用。mtp的做法是在主模型里加几个轻量预测头,让模型提前猜测后续token,并自行验证。上游模型已给出动作,deepseek-v3技术报告将mtp写进训练目标,说明该模块可直接用于推理加速。下游推理框架和工具也开始适配,包括llama.cpp、vllm和lm studio等,用户需下载支持mtp的模型并手动开启。
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论