Google Pixel déploie le MTP zéro copie, l'inférence de Gemini Nano accélérée de plus de 50 % et économise de la mémoire.

robot
Création du résumé en cours
Selon le suivi de Dongcha Beating, Google a déployé une architecture de prédiction multi-token (MTP) dans les séries Pixel 9 et Pixel 10, accélérant directement le modèle Gemini Nano v3 intégré. En attachant une tête de prédiction Transformer légère à la queue du modèle principal gelé, la nouvelle architecture augmente la vitesse d'inférence côté appareil de plus de 50 % tout en conservant intégralement l'alignement de sécurité et la qualité de sortie d'origine. Le décodage spéculatif traditionnel nécessite l'exécution d'un modèle de brouillon indépendant pour prédire les tokens candidats, ce qui occupe inutilement la mémoire vive du téléphone et, comme le modèle indépendant ne peut pas accéder aux états cachés internes du modèle principal, limite la précision des prédictions. La nouvelle architecture, en intégrant la tête MTP à la queue du modèle principal gelé, réutilise avec succès les activations de caractéristiques déjà calculées par le modèle principal, améliorant significativement la précision des prédictions des tokens candidats. Pour éviter les surcoûts mémoire redondants du calcul de brouillon lors de la génération autorégressive, Google a conçu un mécanisme de zéro copie. Dans les solutions traditionnelles, le modèle de brouillon devait maintenir un cache de clés-valeurs (KV cache) indépendant pour générer les tokens candidats, tandis que le mécanisme de zéro copie permet à la tête de prédiction externe de lire directement le cache existant du modèle principal via l'attention croisée (Cross-Attention). Cela élimine non seulement le délai de démarrage de la prédiction de brouillon, mais libère également environ 130 Mo de mémoire vive sur le téléphone. Dans les applications réelles de Pixel comme le résumé de notifications et la vérification de texte, l'architecture MTP permet en moyenne au modèle de prédire avec succès près de 2 tokens supplémentaires par inférence, réduisant la fréquence de réveil du processeur principal due aux vérifications et économisant ainsi la consommation énergétique du système. Dans les tâches de génération de texte hautement structuré comme les réponses intelligentes, le taux d'acceptation des tokens augmente jusqu'à 55 %.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire