最高提速3倍且零损耗,谷歌开源Gemma4全系MTP投机解码模型

据 动察 Beating 监测,谷歌发布并开源了 Gemma 4 系列的多 token 预测(MTP)草稿模型。这是一个采用投机解码(speculative decoding)架构的轻量级辅助模型,能在主模型保留最终验证权的基础上,实现最高 3 倍的推理提速,且完全不损耗输出质量和逻辑推理能力。

標準的大型言語モデル每次只能生成一個 token,容易受到显存带宽瓶颈限制并造成算力闲置。MTP 方案让轻量级的草稿模型利用闲置算力,提前一次性预测多个未来 token,再交由 31B 等重型目标模型并行验证。若目标模型同意草稿,就会一次性接收整段序列。为进一步提效,草稿模型直接共享了目标模型的激活状态和 KV 缓存(存储历史上下文以避免重复计算);针对端侧的 E2B 和 E4B 模型,团队还在嵌入层引入了聚类技术。

目前,MTP 模型已采用与 Gemma 4 相同的 Apache 2.0 协议全面开源,并原生支持 vLLM、SGLang 和 Ollama 等主流推理框架。这次提速优化显著降低了应用门槛,使开发者能在普通消费级显卡上流畅运行 26B MoE 和 31B 稠密模型,也能在移动设备上以更低的功耗支撑实时 AI 交互。

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン