谷歌找到让本地AI提速最多3倍的方法——无需新硬件

###简要介绍

  • 谷歌发布了Gemma 4系列开源模型的多Token预测(MTP)草稿器,在推理速度上实现了最高3倍的提升,且输出质量没有任何下降。
  • 这种技术——称为投机解码——使用一个轻量级的“草稿”模型同时预测多个Token,主模型随后并行验证这些预测,从而绕过逐个Token生成的瓶颈。
  • MTP草稿器在Hugging Face、Kaggle和Ollama上提供,采用与Gemma 4相同的Apache 2.0许可证,并支持vLLM、MLX和SGLang等工具。

在自己的电脑上运行AI模型很棒——直到不再如此。 承诺是隐私、无订阅费用、数据不离开你的设备。现实中,大多数人看到的却是句子之间光标闪烁五秒。 这个瓶颈有个名字:推理速度。它与模型的智能程度无关,而是硬件问题。标准AI模型一次生成一个词碎片——称为Token——。硬件必须将数十亿参数从内存传输到计算单元,才能生成每一个Token。这是有意为之的缓慢。在消费者硬件上,这令人痛苦。

大多数人采用的解决方案是运行更小、更弱的模型——或称为量化模型的高度压缩版本,牺牲一些质量以换取速度。这两种方案都不理想。你可以运行,但这不是你真正想要的模型。 现在谷歌有了不同的想法。公司刚刚发布了其Gemma 4系列开源模型的多Token预测(MTP)草稿器——一种在不影响模型质量或推理能力的情况下,最高可实现3倍加速的技术。

这种方法叫做投机解码,作为概念已经存在多年。谷歌的研究人员在2022年发表了基础论文。直到现在,这一想法才成为主流,因为它需要合适的架构才能在大规模上实现。

简要介绍其工作原理。不是让强大的大模型单独完成所有任务,而是将其与一个微型“草稿”模型配对。草稿模型快速且廉价——它能在比主模型生成一个Token所需时间更短的时间内同时预测多个Token。然后大模型在一次传递中验证所有这些猜测。如果猜测正确,就以一次前向传递的成本获得完整序列。 谷歌表示,“如果目标模型与草稿一致,它会在一次前向传递中接受整个序列——甚至在此过程中生成额外的Token。” 没有任何牺牲:比如Gemma 4的31B密集版本,仍然验证每个Token,输出质量完全一致。你只是利用了在缓慢部分闲置的计算能力。  谷歌称,草稿模型共享目标模型的KV缓存——一种存储已处理上下文的内存结构——因此它们不会浪费时间重新计算大模型已知的内容。对于为手机和Raspberry Pi设备设计的小型边缘模型,团队甚至构建了一种高效的聚类技术,进一步缩短生成时间。 这并不是AI界唯一尝试实现文本生成并行化的方法。基于扩散的语言模型——如Inception Labs的Mercury——采用了完全不同的方式:不是逐个预测Token,而是从噪声开始,逐步细化整个输出。纸面上速度很快,但扩散式LLMs难以达到传统变换器模型的质量,使它们更像是研究中的好奇对象,而非实用工具。 投机解码不同之处在于,它根本不改变基础模型。它是一种服务优化,而非架构替代。你已经在运行的Gemma 4模型变得更快。 实际效果是显著的。根据谷歌的基准测试,在Nvidia RTX Pro 6000台式GPU上运行的Gemma 4 26B模型启用MTP草稿器后,处理的Token数大约翻倍。在Apple Silicon上,批处理大小为4到8个请求时,速度提升约2.2倍。虽然未达到每种场景的3倍上限,但仍是“几乎可以用”到“真正足够快”的重要差异。

这里的背景很重要。当中国模型DeepSeek在2025年1月震惊市场——一天内抹去了6000亿美元的Nvidia市值——核心教训是:效率提升比纯粹增加算力更有冲击力。更聪明地运行比硬件堆砌更有效。谷歌的MTP草稿器正是朝这个方向迈出的一步,目标直指消费者市场。 整个AI行业目前处于推理、训练和存储的三角形中。每一项突破都能带动整个生态系统的提升或震动。DeepSeek的训练方法(用较低端硬件实现强大模型)就是一个例子,而谷歌的TurboQuant(在不损失质量的前提下缩减AI存储)论文也是如此。这些都曾引发市场动荡,促使公司思考下一步。

谷歌表示,草稿器能“提升响应速度:大幅降低近实时聊天、沉浸式语音应用和智能工作流程的延迟”——这些任务都需要低延迟才能真正有用。 应用场景一目了然:一个本地编码助手,不会卡顿;一个在你忘记提问前就响应的语音界面;一个不让你在步骤间等待三秒的智能工作流程。所有这些,都可以在你已有的硬件上实现。 MTP草稿器现已在Hugging Face、Kaggle和Ollama上提供,采用Apache 2.0许可证。它们可以开箱即用,支持vLLM、MLX、SGLang和Hugging Face Transformers。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论