Nouvelle de CoinWorld, Google a déployé l'architecture de prédiction multi-token (MTP) dans les séries Pixel 9 et Pixel 10, accélérant directement le modèle Gemini Nano v3 intégré. La nouvelle architecture améliore la vitesse d'inférence côté appareil de plus de 50 % en attachant une tête de prédiction transformer légère à la queue du modèle principal gelé, tout en préservant l'alignement de sécurité et la qualité de sortie d'origine. Pour éviter la surcharge de mémoire vive due aux calculs de brouillon lors de la génération autorégressive, Google a conçu un mécanisme de copie zéro, réutilisant avec succès les activations de caractéristiques déjà calculées par le modèle principal, ce qui améliore significativement la précision de prédiction des tokens candidats. Cette architecture permet en moyenne au modèle de prédire avec succès près de 2 tokens supplémentaires par inférence unique dans les applications réelles, réduisant la fréquence à laquelle le processeur principal est réveillé pour des vérifications, économisant ainsi la consommation d'énergie du système.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 2
  • 1
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
DewdropSapling
· Il y a 2h
Cette architecture MTP de Google a vraiment quelque chose, 50% d'accélération et économie d'énergie, l'IA mobile va changer la donne.
Voir l'originalRépondre0
AirdropCartographer
· Il y a 2h
Le mécanisme de zéro copie est plutôt ingénieux, il réutilise l'activation des caractéristiques pour éviter une explosion de mémoire, et les détails d'ingénierie sont bien réalisés.
Voir l'originalRépondre0