Selon le suivi de Dongcha Beating, Google a déployé une architecture de prédiction multi-token (MTP) dans les séries Pixel 9 et Pixel 10, accélérant directement le modèle Gemini Nano v3 intégré. En attachant une tête de prédiction Transformer légère à la queue du modèle principal gelé, la nouvelle architecture augmente la vitesse d'inférence côté appareil de plus de 50 % tout en conservant intégralement l'alignement de sécurité et la qualité de sortie d'origine. Le décodage spéculatif traditionnel nécessite l'exécution d'un modèle de brouillon indépendant pour prédire les tokens candidats, ce qui occupe inutilement la mémoire vive du téléphone et, comme le modèle indépendant ne peut pas accéder aux états cachés internes du modèle principal, limite la précision des prédictions. La nouvelle architecture, en intégrant la tête MTP à la queue du modèle principal gelé, réutilise avec succès les activations de caractéristiques déjà calculées par le modèle principal, améliorant significativement la précision des prédictions des tokens candidats. Pour éviter les surcoûts mémoire redondants du calcul de brouillon lors de la génération autorégressive, Google a conçu un mécanisme de zéro copie. Dans les solutions traditionnelles, le modèle de brouillon devait maintenir un cache de clés-valeurs (KV cache) indépendant pour générer les tokens candidats, tandis que le mécanisme de zéro copie permet à la tête de prédiction externe de lire directement le cache existant du modèle principal via l'attention croisée (Cross-Attention). Cela élimine non seulement le délai de démarrage de la prédiction de brouillon, mais libère également environ 130 Mo de mémoire vive sur le téléphone. Dans les applications réelles de Pixel comme le résumé de notifications et la vérification de texte, l'architecture MTP permet en moyenne au modèle de prédire avec succès près de 2 tokens supplémentaires par inférence, réduisant la fréquence de réveil du processeur principal due aux vérifications et économisant ainsi la consommation énergétique du système. Dans les tâches de génération de texte hautement structuré comme les réponses intelligentes, le taux d'acceptation des tokens augmente jusqu'à 55 %.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Reposter
Partager

Commentaire

Ajouter un commentaire

Aucun commentaire

Sujets populaires
Afficher plus
#
SKHynixTopsKOSPIByMarketCap
1,64M Popularité
#
MicronEarningsBeatExpectationsSharesRise
353,65K Popularité
#
IsraelStrikesIranBTCPlunges
65,31K Popularité
#
PredictWorldCupShare20000U
129,14K Popularité
#
USMayPCEInflationRisesTo4.1%HighestIn3Years
195,84K Popularité

Épinglé

Google Pixel déploie le MTP zéro copie, l'inférence de Gemini Nano accélérée de plus de 50 % et économise de la mémoire.

Sujets populaires

SKHynixTopsKOSPIByMarketCap

MicronEarningsBeatExpectationsSharesRise

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

USMayPCEInflationRisesTo4.1%HighestIn3Years

Épinglé