Google open source Gemma 4 entire MTP speculative decoding model, up to 3 times faster

robot
Création du résumé en cours

CoinWorld消息,Google发布并开源了Gemma 4系列的多Token预测(MTP)草稿模型。
该模型采用投机解码架构,能够在主模型保留最终验证权的基础上,实现最高3倍的推理提速,且不损耗输出质量。
MTP方案利用闲置算力,提前预测多个未来Token,再交由重型目标模型并行验证。
若目标模型同意草稿,就会一次性接收整段序列。
草稿模型共享目标模型的激活状态和KV缓存,针对E2B和E4B模型,团队在嵌入层引入聚类技术。
目前,MTP模型已全面开源,支持VLLM、SGLang和Ollama等主流推理框架。
这次优化显著降低了应用门槛,使开发者能在普通消费级显卡上流畅运行26B MOE和31B稠密模型,也能在移动设备上以更低功耗支撑实时AI交互。

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler