Selon le suivi Beating, Google a publié et open-sourcé un brouillon du modèle de prédiction multi-token (MTP) de la série Gemma 4. Il s'agit d'un modèle auxiliaire léger utilisant une architecture de décodage spéculatif, capable d'accélérer l'inférence jusqu'à 3 fois tout en conservant la qualité de sortie et la capacité de raisonnement logique du modèle principal. Les grands modèles de langage standard ne peuvent générer qu'un token à la fois, ce qui les rend vulnérables aux limitations de bande passante de la mémoire vidéo et peut entraîner un idle computationnel. La solution MTP permet au modèle brouillon léger d'utiliser la puissance de calcul inutilisée pour prédire en avance plusieurs tokens futurs en une seule fois, puis de faire valider en parallèle par un modèle cible lourd comme le 31B. Si le modèle cible accepte le brouillon, il recevra toute la séquence en une seule fois. Pour améliorer encore l'efficacité, le modèle brouillon partage directement la...

BlockBeatNews

2026-05-06 01:20:52

Selon le monitoring de Beating, Google a publié et open-sourcé un brouillon du modèle de prédiction multi-token (MTP) de la série Gemma 4. Il s’agit d’un modèle auxiliaire léger utilisant une architecture de décodage spéculatif, capable d’accélérer l’inférence jusqu’à 3 fois tout en conservant la précision finale et la capacité de raisonnement logique du modèle principal.

Les grands modèles de langage standard ne peuvent générer qu’un seul token à la fois, ce qui limite souvent par la bande passante de la mémoire vidéo et entraîne un idle de la puissance de calcul. La solution MTP permet à un modèle brouillon léger d’utiliser la puissance de calcul inutilisée pour prédire en une seule fois plusieurs tokens futurs, puis de faire valider ces prédictions en parallèle par un modèle cible lourd comme le modèle 31B. Si le modèle cible accepte le brouillon, il reçoit alors toute la séquence en une seule fois. Pour améliorer encore l’efficacité, le modèle brouillon partage directement l’état d’activation et le cache KV (qui stocke le contexte historique pour éviter les recalculs) du modèle cible. Concernant les modèles E2B et E4B côté terminal, l’équipe a également introduit une technique de clustering dans la couche d’embedding.

Actuellement, le modèle MTP a été entièrement open-sourcé sous la même licence Apache 2.0 que Gemma 4, et supporte nativement des frameworks d’inférence populaires tels que vLLM, SGLang et Ollama. Cette optimisation de la vitesse réduit considérablement la barrière à l’entrée, permettant aux développeurs de faire fonctionner en douceur des modèles MoE 26B et dense 31B sur des cartes graphiques grand public, et de soutenir une interaction AI en temps réel sur appareils mobiles avec une consommation d’énergie plus faible.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Reposter
Partager

Commentaire

Ajouter un commentaire

Aucun commentaire

Sujets populaires
Afficher plus
#
GateSquareMayTradingShare
357.68K Popularité
#
BitcoinHoldsFirmAbove80K
94.28M Popularité
#
CryptoMarketRecovery
110.27K Popularité
#
IsraelStrikesIranBTCPlunges
43.21K Popularité
#
AaveSuesToUnfreeze73MInETH
4.15K Popularité

Épingler

Vitesse maximale jusqu'à 3 fois plus rapide avec zéro perte, le modèle de décodage spéculatif MTP de toute la gamme Gemma4 open source de Google

Sujets populaires

GateSquareMayTradingShare

BitcoinHoldsFirmAbove80K

CryptoMarketRecovery

IsraelStrikesIranBTCPlunges

AaveSuesToUnfreeze73MInETH

Épingler