Google a publié et open-sourcé le brouillon du modèle de prédiction multi-token (MTP) de la série Gemma 4, utilisant un décodage spéculatif, permettant une accélération jusqu'à 3 fois en inference tout en conservant la qualité de sortie du modèle principal. Le MTP exploite la puissance de calcul inutilisée pour prédire à l'avance plusieurs tokens futurs, qui sont ensuite vérifiés en parallèle par un modèle cible lourd ; si le brouillon est approuvé, toute la séquence est acceptée en une seule fois et l'état d'activation ainsi que le cache KV sont partagés. Une introduction de clustering pour les couches d'intégration E2B/E4B. Le MTP est entièrement open-sourcé, supporte les frameworks VLLM, SGLang, Ollama, etc., et peut faire fonctionner en douceur des modèles MOE de 26 milliards et des modèles denses de 31 milliards sur des cartes graphiques grand public, tout en réduisant la consommation d'énergie pour l'IA en temps réel sur mobile.

CoinNetwork

2026-05-06 00:37:51

Création du résumé en cours

CoinWorld消息，Google发布并开源了Gemma 4系列的多Token预测（MTP）草稿模型。
该模型采用投机解码架构，能够在主模型保留最终验证权的基础上，实现最高3倍的推理提速，且不损耗输出质量。
MTP方案利用闲置算力，提前预测多个未来Token，再交由重型目标模型并行验证。
若目标模型同意草稿，就会一次性接收整段序列。
草稿模型共享目标模型的激活状态和KV缓存，针对E2B和E4B模型，团队在嵌入层引入聚类技术。
目前，MTP模型已全面开源，支持VLLM、SGLang和Ollama等主流推理框架。
这次优化显著降低了应用门槛，使开发者能在普通消费级显卡上流畅运行26B MOE和31B稠密模型，也能在移动设备上以更低功耗支撑实时AI交互。

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Reposter
Partager

Commentaire

Ajouter un commentaire

Aucun commentaire

Sujets populaires
Afficher plus
#
GateSquareMayTradingShare
1M Popularité
#
BTCBackAbove80K
59.44M Popularité
#
IsraelStrikesIranBTCPlunges
45.58K Popularité
#
JapanTokenizesGovernmentBonds
1.9M Popularité
#
#DailyPolymarketHotspot
868.21K Popularité

Épingler

Google open source Gemma 4 entire MTP speculative decoding model, up to 3 times faster

Sujets populaires

GateSquareMayTradingShare

BTCBackAbove80K

IsraelStrikesIranBTCPlunges

JapanTokenizesGovernmentBonds

#DailyPolymarketHotspot

Épingler