Vitesse maximale jusqu'à 3 fois plus rapide avec zéro perte, le modèle de décodage spéculatif MTP de toute la gamme Gemma4 open source de Google

Selon le monitoring de Beating, Google a publié et open-sourcé un brouillon du modèle de prédiction multi-token (MTP) de la série Gemma 4. Il s’agit d’un modèle auxiliaire léger utilisant une architecture de décodage spéculatif, capable d’accélérer l’inférence jusqu’à 3 fois tout en conservant la précision finale et la capacité de raisonnement logique du modèle principal.

Les grands modèles de langage standard ne peuvent générer qu’un seul token à la fois, ce qui limite souvent par la bande passante de la mémoire vidéo et entraîne un idle de la puissance de calcul. La solution MTP permet à un modèle brouillon léger d’utiliser la puissance de calcul inutilisée pour prédire en une seule fois plusieurs tokens futurs, puis de faire valider ces prédictions en parallèle par un modèle cible lourd comme le modèle 31B. Si le modèle cible accepte le brouillon, il reçoit alors toute la séquence en une seule fois. Pour améliorer encore l’efficacité, le modèle brouillon partage directement l’état d’activation et le cache KV (qui stocke le contexte historique pour éviter les recalculs) du modèle cible. Concernant les modèles E2B et E4B côté terminal, l’équipe a également introduit une technique de clustering dans la couche d’embedding.

Actuellement, le modèle MTP a été entièrement open-sourcé sous la même licence Apache 2.0 que Gemma 4, et supporte nativement des frameworks d’inférence populaires tels que vLLM, SGLang et Ollama. Cette optimisation de la vitesse réduit considérablement la barrière à l’entrée, permettant aux développeurs de faire fonctionner en douceur des modèles MoE 26B et dense 31B sur des cartes graphiques grand public, et de soutenir une interaction AI en temps réel sur appareils mobiles avec une consommation d’énergie plus faible.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler