据动察 Beating 監測，GoogleはGemma 4シリーズのマルチトークン予測（MTP）草稿モデルを公開し、オープンソース化しました。これは投機的デコーディング（speculative decoding）アーキテクチャを採用した軽量補助モデルであり、メインモデルが最終検証権を保持したままで、最大3倍の推論速度向上を実現し、出力の品質や論理推論能力を全く損なうことなく動作します。標準的な大規模言語モデルは一度に1つのトークンしか生成できず、メモリ帯域幅の制約により計算資源がアイドリング状態になることがあります。MTP方式では、軽量な草稿モデルがアイドリング状態の計算能力を利用して、複数の未来のトークンを事前に一括予測し、その後、31Bなどの重厚なターゲットモデルと並列で検証します。ターゲットモデルが草稿を承認すれば、一度に全体のシーケンスを受け取る仕組みです。さらなる効率化のために、草稿モデルはターゲットモデルと直接共有されました。

BlockBeatNews

2026-05-06 01:20:52

据动察 Beating 监测，谷歌发布并开源了 Gemma 4 系列的多 token 预测（MTP）草稿模型。这是一个采用投机解码（speculative decoding）架构的轻量级辅助模型，能在主模型保留最终验证权的基础上，实现最高 3 倍的推理提速，且完全不损耗输出质量和逻辑推理能力。

標準的大型言語モデル每次只能生成一個 token，容易受到显存带宽瓶颈限制并造成算力闲置。MTP 方案让轻量级的草稿模型利用闲置算力，提前一次性预测多个未来 token，再交由 31B 等重型目标模型并行验证。若目标模型同意草稿，就会一次性接收整段序列。为进一步提效，草稿模型直接共享了目标模型的激活状态和 KV 缓存（存储历史上下文以避免重复计算）；针对端侧的 E2B 和 E4B 模型，团队还在嵌入层引入了聚类技术。

目前，MTP 模型已采用与 Gemma 4 相同的 Apache 2.0 协议全面开源，并原生支持 vLLM、SGLang 和 Ollama 等主流推理框架。这次提速优化显著降低了应用门槛，使开发者能在普通消费级显卡上流畅运行 26B MoE 和 31B 稠密模型，也能在移动设备上以更低的功耗支撑实时 AI 交互。

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

報酬
いいね
コメント
リポスト
共有

コメントを追加

コメントなし

人気の話題
もっと見る
#
GateSquareMayTradingShare
382.09K 人気度
#
BitcoinHoldsFirmAbove80K
94.29M 人気度
#
CryptoMarketRecovery
112.51K 人気度
#
IsraelStrikesIranBTCPlunges
43.21K 人気度
#
AaveSuesToUnfreeze73MInETH
1.84M 人気度

ピン

サイトマップ

最高提速3倍且零损耗，谷歌开源Gemma4全系MTP投机解码模型

人気の話題

GateSquareMayTradingShare

BitcoinHoldsFirmAbove80K

CryptoMarketRecovery

IsraelStrikesIranBTCPlunges

AaveSuesToUnfreeze73MInETH

ピン