谷歌找到让本地AI提速最多3倍的方法——无需新硬件

Decrypt · 2026-05-07T14:16:33+00:00

简要 Google 为 Gemma 4 发布了多令牌预测（MTP）草稿器，在推理时实现最高 3 倍的加速，且不降低输出质量。该技术——称为推测解码——使用了一个轻量级的“草稿器”

2026-05-07 14:16:33

###简要介绍

谷歌发布了Gemma 4系列开源模型的多Token预测（MTP）草稿器，在推理速度上实现了最高3倍的提升，且输出质量没有任何下降。
这种技术——称为投机解码——使用一个轻量级的“草稿”模型同时预测多个Token，主模型随后并行验证这些预测，从而绕过逐个Token生成的瓶颈。
MTP草稿器在Hugging Face、Kaggle和Ollama上提供，采用与Gemma 4相同的Apache 2.0许可证，并支持vLLM、MLX和SGLang等工具。

在自己的电脑上运行AI模型很棒——直到不再如此。承诺是隐私、无订阅费用、数据不离开你的设备。现实中，大多数人看到的却是句子之间光标闪烁五秒。这个瓶颈有个名字：推理速度。它与模型的智能程度无关，而是硬件问题。标准AI模型一次生成一个词碎片——称为Token——。硬件必须将数十亿参数从内存传输到计算单元，才能生成每一个Token。这是有意为之的缓慢。在消费者硬件上，这令人痛苦。

大多数人采用的解决方案是运行更小、更弱的模型——或称为量化模型的高度压缩版本，牺牲一些质量以换取速度。这两种方案都不理想。你可以运行，但这不是你真正想要的模型。现在谷歌有了不同的想法。公司刚刚发布了其Gemma 4系列开源模型的多Token预测（MTP）草稿器——一种在不影响模型质量或推理能力的情况下，最高可实现3倍加速的技术。

这种方法叫做投机解码，作为概念已经存在多年。谷歌的研究人员在2022年发表了基础论文。直到现在，这一想法才成为主流，因为它需要合适的架构才能在大规模上实现。

简要介绍其工作原理。不是让强大的大模型单独完成所有任务，而是将其与一个微型“草稿”模型配对。草稿模型快速且廉价——它能在比主模型生成一个Token所需时间更短的时间内同时预测多个Token。然后大模型在一次传递中验证所有这些猜测。如果猜测正确，就以一次前向传递的成本获得完整序列。谷歌表示，“如果目标模型与草稿一致，它会在一次前向传递中接受整个序列——甚至在此过程中生成额外的Token。” 没有任何牺牲：比如Gemma 4的31B密集版本，仍然验证每个Token，输出质量完全一致。你只是利用了在缓慢部分闲置的计算能力。谷歌称，草稿模型共享目标模型的KV缓存——一种存储已处理上下文的内存结构——因此它们不会浪费时间重新计算大模型已知的内容。对于为手机和Raspberry Pi设备设计的小型边缘模型，团队甚至构建了一种高效的聚类技术，进一步缩短生成时间。这并不是AI界唯一尝试实现文本生成并行化的方法。基于扩散的语言模型——如Inception Labs的Mercury——采用了完全不同的方式：不是逐个预测Token，而是从噪声开始，逐步细化整个输出。纸面上速度很快，但扩散式LLMs难以达到传统变换器模型的质量，使它们更像是研究中的好奇对象，而非实用工具。投机解码不同之处在于，它根本不改变基础模型。它是一种服务优化，而非架构替代。你已经在运行的Gemma 4模型变得更快。实际效果是显著的。根据谷歌的基准测试，在Nvidia RTX Pro 6000台式GPU上运行的Gemma 4 26B模型启用MTP草稿器后，处理的Token数大约翻倍。在Apple Silicon上，批处理大小为4到8个请求时，速度提升约2.2倍。虽然未达到每种场景的3倍上限，但仍是“几乎可以用”到“真正足够快”的重要差异。

这里的背景很重要。当中国模型DeepSeek在2025年1月震惊市场——一天内抹去了6000亿美元的Nvidia市值——核心教训是：效率提升比纯粹增加算力更有冲击力。更聪明地运行比硬件堆砌更有效。谷歌的MTP草稿器正是朝这个方向迈出的一步，目标直指消费者市场。整个AI行业目前处于推理、训练和存储的三角形中。每一项突破都能带动整个生态系统的提升或震动。DeepSeek的训练方法（用较低端硬件实现强大模型）就是一个例子，而谷歌的TurboQuant（在不损失质量的前提下缩减AI存储）论文也是如此。这些都曾引发市场动荡，促使公司思考下一步。

谷歌表示，草稿器能“提升响应速度：大幅降低近实时聊天、沉浸式语音应用和智能工作流程的延迟”——这些任务都需要低延迟才能真正有用。应用场景一目了然：一个本地编码助手，不会卡顿；一个在你忘记提问前就响应的语音界面；一个不让你在步骤间等待三秒的智能工作流程。所有这些，都可以在你已有的硬件上实现。 MTP草稿器现已在Hugging Face、Kaggle和Ollama上提供，采用Apache 2.0许可证。它们可以开箱即用，支持vLLM、MLX、SGLang和Hugging Face Transformers。

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

赞赏
点赞
评论
转发
分享

请输入评论内容

暂无评论

热门话题
查看更多
#
Gate广场五月交易分享
70.41万热度
#
比特币跌破8万美元
9501.3万热度
#
美伊冲突再升级
8.14万热度
#
油价过山车
102.2万热度
#
Polymarket每日热点
84.4万热度

谷歌找到让本地AI提速最多3倍的方法——无需新硬件

热门话题

Gate广场五月交易分享

比特币跌破8万美元

美伊冲突再升级

油价过山车

Polymarket每日热点

置顶