A queda de mais de 100 bilhões na fábrica de memória foi apenas um engano?

Ações só com base nas análises dos analistas do Jin Qilin—autoridade, profissionalismo, rapidez, abrangência—ajude-o a descobrir oportunidades em temas com potencial!

(Fonte: NetEase Technology)

Se não fosse o circo que a TurboQuant da Google aprontou, nem eu tinha dado por isso: nós já estamos a “aguentar” AI há tanto tempo.

No dia 24 deste mês, o Google Research publicou de repente um post a explicar em detalhe um algoritmo chamado TurboQuant, que é uma técnica de compressão extrema.

Este post resume de forma bastante simples para que serve o TurboQuant — ele consegue comprimir a memória KV cache durante a inferência de grandes modelos para 3,5 bit (cerca de 6 vezes), quase sem perda de precisão.

Traduzido para “linguagem humana”: o Google Research apresentou um algoritmo que reduz de forma significativa o consumo de memória dos grandes modelos. Antes, havia coisas que só se conseguiam com 600G de memória; depois de usar este algoritmo, bastam 100G!

No dia seguinte, alguns grandes fabricantes de armazenamento que ainda comiam fondue cantando músicas viram as suas ações cair de imediato.

A Micron Technology caiu 3,4% na bolsa, com uma perda de capitalização de 15.166 milhões de dólares; a SanDisk (SanDisk) chegou a cair até 6,5%, e no fecho a queda foi reduzida para 3,5%, com uma perda de capitalização de 3,63 mil milhões de dólares. Western Digital (Western Digital) caiu 1,63%, com uma perda de capitalização de 1.66B de dólares.

Fonte do gráfico: Sina Finance

Todo o sector de AI explodiu em discussão; toda a gente começou a analisar onde é que o TurboQuant é mesmo tão “formidável” e como é que ele afeta

Até o CEO da Claudflare publicou um artigo a avaliar que isto é o “momento DeepSeek” da Google.

Muitos amigos da comunidade podem ter visto esta notícia e, talvez, já tenham de sair a rir na cama: Bem feito! E agora, a memória e os discos SSD não vão cair também? Os nossos “parties” de montagem de PC finalmente aguentaram até ao fim e vão colher?

Claro que eu também espero que a coisa evolua nesse sentido.

Para descobrir se o nosso desejo mais simples e genuíno pode mesmo ser realizado, ainda fiz algum trabalho prévio e estudei o que é, afinal, o TurboQuant.

Resultado: mal eu tinha começado a perceber como é o “Turbo” do TurboQuant, veio uma reviravolta de 180° ——

Às 22h da noite de 27 de março, o pós-doutor Gao Jianyang da ETH de Zurique publicou em simultâneo posts em Zhihu, X e na plataforma de avaliação do ICLR, acusando que o artigo académico usado pela Google para apresentar o algoritmo TurboQuant continha graves irregularidades académicas.

O Doutor Gao descobriu que o TurboQuant da Google, tal como a sua equipa tinha desenvolvido o algoritmo RaBitQ, colide fortemente no que diz respeito à base — a camada subjacente usa “rotação aleatória + transformação JL”.

Dizer que “os heróis vêem-se de forma semelhante” até poderia passar, mas o absurdo é que as provas dos emails apresentados pelo Doutor Gao mostram que já em janeiro de 2025 o coautor Majid dessa tese da Google tinha enviado um email, discretamente e com ar de pedido, a solicitar ajuda ao Doutor Gao para conseguir correr o código do RaBitQ.

Isto não está certo. O que é que isto representa: a Google teria explorado bem os detalhes do outro lado, mas na hora da “liquidação da vitória” não menciona nem uma palavra sobre o que o outro lado fez?

Não se trata apenas de ocultar a fonte. A equipa do Turbo Quant da Google chegou mesmo a ignorar provas matemáticas estabelecidas e, diretamente no artigo, empurrou a teoria do Doutor Gao, dizendo apenas “ao vivo e a cores”.

O Doutor Gao considera que o algoritmo RaBitQ da sua autoria foi estritamente comprovado e atinge padrões de topo do nível “conferência principal” em teoria da computação.

No entanto, a equipa do TurboQuant nem sequer olhou para as deduções; sem qualquer evidência, no corpo do artigo colocou ao Doutor Gao um rótulo de “subótimo teórico, análise pouco rigorosa”.

Mas o que mais custa a acreditar é a “dupla régua” dos resultados de benchmark da Google, num estilo quase “mágico”.

No artigo, eles vendem a ideia de que o seu algoritmo é várias ordens de grandeza mais rápido do que o RaBitQ, mas as operações nos bastidores são extremamente baixas:

A Google equipou-se com um monstro de capacidade de computação, a GPU A100; ao adversário, atribuiu um CPU com as opções de múltiplos threads desligadas.

E além disso, em vez de usar o código C++ aberto que já existe e está altamente otimizado, insistiram em usar uma versão em Python, traduzida de forma meio “meio no improviso” pelo coautor do segundo artigo da tese do TurboQuant, para correr — acrescentando ainda outra camada de debuff ao algoritmo do Doutor Gao.

Num email de maio do ano passado, o coautor do segundo artigo desta tese admitiu pessoalmente esta operação assimétrica de “um núcleo a atacar muitos núcleos”; e também admitiu ter sincronizado esta questão com os outros coautores da tese.

Mas no artigo final publicado, estas duas camadas de informação de soft e hardware capazes de provocar diferenças em escala de variáveis foram apagadas por completo.

Ao mesmo tempo, os autores da tese do TurboQuant também recusaram admitir que o algoritmo deles é estruturalmente semelhante ao RabitQ do Doutor Gao.

Este artigo, cheio de erros e controvérsias, foi aceite pela conferência ICLR 2026. Mais tarde, surgiu a história que mencionámos no início: através dos canais oficiais do Google Research, esta tese foi promovida em larga escala.

O Google Research só mencionou o quão “formidável” é o TurboQuant e quanto de memória consegue poupar, mas não disse uma única palavra sobre os vários erros do próprio artigo que suporta o TurboQuant.

Estas promoções, com as visualizações em redes sociais já a atingirem dezenas de milhões, acabaram por provocar a turbulência nos mercados de ações de alguns dos principais fabricantes de armazenamento da semana passada.

O Doutor Gao estima que também foi porque já não aguentava ver aquilo, e por isso decidiu publicar e tornar isto público, com provas contundentes.

Em seguida, o mercado de armazenamento começou também a recuperar gradualmente da primeira vaga de turbulência.

No próprio dia em que Amir Zandieh respondeu por email ao Doutor Gao, as ações da Micron Technology (MU) fecharam o dia a subir 0,5%, com um volume de transações de 16.25B de dólares; mas, ainda assim, nesta semana acumularam uma queda de 15,5%.

Não sei que sensação os amigos acham depois de ouvir esta história.

Eu sinto-me como aquele “pangolim” atrasado numa horta de frutas, a ver os colegas terminarem o fruto e já estarem a ir para o próximo, enquanto eu ando preocupado por ficar para trás.

Mas, quando viro a cara, descubro que os “irmãos” já estão a lançar jatos — esta história, afinal, tem veneno.

O que ainda é mais difícil de entender é isto: um artigo controverso, com erros óbvios, foi libertado pelo Google para publicidade só depois de um ano. E até o Doutor Gao se levantar para “bater” no Google, parece que também não ouvimos ninguém a questionar.

O mercado não falou: apenas tremia; e o chamado “círculo de AI” era apenas uma festa — finalmente alguém consegue tratar o problema de os grandes modelos de AI irem a um ritmo louco a consumir memória.

Entre as poucas instituições de análise que mantêm alguma lucidez, e também alguns meios de comunicação digitais nacionais, apenas apontaram que isto, no fundo, corresponde ao “paradoxo de Jevons” do velho chavão de Wall Street:

O TurboQuant realmente reduz o custo de inferência com textos longos, mas quando o limite de entrada baixa, os fabricantes vão definitivamente soltar-se e desenvolver ——

Agora, a norma principal das janelas de contexto dos modelos domésticos é 200K-256K; poucos conseguem chegar a 1M.

Mas, no exterior, os modelos principais já conseguem 1M. Diz-me: com este conjunto de algoritmos, os modelos estrangeiros não vão tentar ampliar a vantagem? Os modelos domésticos não vão querer correr atrás e dar o “salto”?

Quando chegar a altura, várias aplicações multimodais e de contexto longo serão lançadas em massa; como são melhores e mais fáceis de usar, os utilizadores e os cenários aumentam em múltiplos. Assim, a capacidade de computação e o hardware de armazenamento que o mundo realmente precisa não só não se poupa como acaba por ser “explodido” diretamente pela enorme procura.

Mas as vozes a questionar se o TurboQuant é realmente tão poderoso parecem ter sido abafadas. No fundo, é como se uma grande parte das pessoas, sem confirmar e sem ir entender a situação real no meio académico, tivesse assumido como garantido que o TurboQuant da Google, sim, realmente consegue mudar o mundo.

Claro que, quando digo isto, não é para criticar ninguém. Porque eu próprio, quando vi as notícias sobre o TurboQuant pela primeira vez, também fiquei entusiasmado como uma criança.

O que eu quero deixar claro é que este “circo” do TurboQuant da Google expôs a impaciência de todos em relação à AI:

Para alimentar este “sumidouro” de hardware, que consome tudo por causa da AI, já aguentámos demasiado.

Desde o fim do ano passado, até produtos eletrónicos como o telemóvel—quase um por pessoa—subiram de preço devido ao aumento do preço da memória.

Fonte do gráfico: “Xing Ke Du” Li Qinlin

Aí a natureza do assunto muda — o caro de AI afinal vai exigir que toda a gente pague em conjunto.

E, de forma irónica, até hoje ninguém consegue explicar claramente quanta produtividade a AI realmente gera, e quanta conveniência ela traz.

No início deste ano, a Anthropic publicou um estudo importante sobre o impacto da AI no mercado de trabalho.

O estudo mostra que, até agora, apenas algumas profissões específicas usam AI; e a taxa de penetração da AI no trabalho dessas pessoas também não é tão alta quanto se imaginava.

Fonte do gráfico: Anthropic

Ou seja, este produto cujo nível real de penetração na indústria é baixo, que só ajuda alguns a ganhar dinheiro, e na prática não é assim tão útil—está a fazer com que os impactos negativos sejam pagos por toda a sociedade…

Neste ponto, se alguém me disser: “agora há algo que pode fazer a fome de AI diminuir um pouco, e não continuar a fazer-me subir os preços”— então, claro que eu espero que essa notícia seja verdadeira.

Pode ser também por isso que uma tese com erros, e um algoritmo que não foi investido para uso comercial, conseguiu desencadear uma tamanha onda.

Só que, infelizmente, no fim tudo acaba por ser comprovado como apenas um engano.

Texto por: Shi Ang

Edição: Zao Qi & Miro

Grande volume de notícias, interpretação precisa—tudo na app do Sina Finance

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar