2026-03-26 05:50:23

Uma tese revoluciona um mercado de trilhões, o colapso dos chips de armazenamento...

Ninguém previa, nesta quarta-feira, na abertura do mercado norte-americano, que o setor de chips de armazenamento enfrentaria um «momento negro», com as ações dos gigantes caindo em linha —

Até o fecho, a Micron Technology caiu 4%, a Western Digital caiu 4,4%, a Seagate caiu 5,6%, e a SanDisk sofreu uma queda ainda maior de 6,5%.

A faísca que desencadeou esta onda de venda foi o algoritmo de compressão TurboQuant lançado pelo Google.

Como é bem sabido, quando os grandes modelos estão em funcionamento, o cache KV (KV cache) é praticamente uma «besta devoradora de memória».

Para evitar recalcular tokens já processados, o LLM mantém uma «memória operacional», que, à medida que a conversa se alonga, cresce como uma bola de neve, rapidamente se expandindo.

O TurboQuant do Google apresenta uma solução de «redução de tamanho» extremamente «violenta»:

Primeiro, faz uma «rotação» nos vetores de alta dimensão no cache KV, depois troca para um sistema de coordenadas polares para descrevê-los, eliminando o consumo de memória.

Depois, usa apenas 1-bit de espaço adicional para inserir um «corretor matemático», que suaviza precisamente o viés sistemático causado pela compressão.

O artigo do TurboQuant será oficialmente apresentado na ICLR 2026, que acontecerá no próximo mês.

O resultado é impressionante: sem qualquer treinamento adicional, o TurboQuant comprime o cache para um nível insano de 3 bits.

Assim, o consumo do cache KV cai 6 vezes, e o mais importante, o desempenho na inferência quase não sofre perdas.

No H100, em comparação com a linha de base de 32 bits, a velocidade de atenção com cálculo de 4 bits disparou 8 vezes. Não só economiza espaço, como também funciona mais rápido.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.