2026-03-26 05:50:23

Une publication qui secoue un marché de plusieurs billions, le ciel s'effondre pour les puces de stockage...

Personne ne s'attendait à cela : ce mercredi, lors de l'ouverture des marchés américains, le secteur des puces de stockage a connu un « moment noir », avec toutes les grandes entreprises en baisse —

À la clôture, Micron a chuté de 4 %, Western Digital de 4,4 %, Seagate de 5,6 %, et SanDisk a été fortement impacté avec une baisse de 6,5 %.

La cause de cette vague de ventes, c'est le nouvel algorithme de compression TurboQuant publié par Google.

Comme on le sait, lorsque les grands modèles tournent, le cache KV (KV cache) est quasiment un « monstre à dévorer la mémoire ».

Pour éviter de recalculer les Tokens précédents, les LLM maintiennent une « mémoire opérationnelle » qui, à mesure que la conversation s'allonge, grossit rapidement comme une boule de neige.

TurboQuant de Google propose une solution de « réduction » extrêmement « violente » :

D'abord, faire une « rotation » des vecteurs haute dimension dans le cache KV, puis utiliser un nouveau système de coordonnées polaires pour le décrire, ce qui réduit directement la consommation de mémoire à zéro.

Ensuite, en utilisant seulement 1 bit d'espace supplémentaire, insérer un « correcteur » mathématique pour éliminer précisément le biais systématique introduit par la compression.

Le papier de TurboQuant sera officiellement présenté lors de l'ICLR 2026 le mois prochain.

Le résultat est impressionnant : sans aucun entraînement supplémentaire, TurboQuant compresse le cache KV à un niveau fou de 3 bits.

Ainsi, la consommation du cache KV chute de 6 fois, tout en maintenant presque aucune perte de performance en inférence.

Sur H100, par rapport à la ligne de base en 32 bits, la vitesse de calcul de l'attention en 4 bits grimpe de 8 fois. Non seulement cela économise de l'espace, mais cela accélère aussi le traitement.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.