DERNIÈRE HEURE : Google a dévoilé TurboQuant, une technique qui vise à compresser la mémoire de travail des modèles linguistiques sans perte.


Si elle atteint la production comme le suggère la recherche, cela pourrait atténuer l'un des principaux goulots d'étranglement de l'IA actuelle : le coût et la rareté de la mémoire nécessaire pour gérer de longs contextes, des agents et des charges de travail d'inférence massives.
TurboQuant vise à réduire l'utilisation du cache KV jusqu'à six fois et à accélérer le traitement sur puce jusqu'à huit fois sans perte de données.
Voir l'original
post-image
post-image
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler