A queda de mais de 100 bilhões na fábrica de memória foi apenas um engano?

Question

> 　　Ações só com base nas análises dos analistas do Jin Qilin—autoridade, profissionalismo, rapidez, abrangência—ajude-o a descobrir oportunidades em temas com potencial!		（Fonte: NetEase Technology）Se não fosse o circo que a TurboQuant da Google aprontou, nem eu tinha dado por isso: nós já estamos a “aguentar” AI há tanto tempo.No dia 24 deste mês, o Google Research publicou de repente um post a explicar em detalhe um algoritmo chamado TurboQuant, que é uma técnica de compressão extrema.Este post resume de forma bastante simples para que serve o TurboQuant — ele consegue comprimir a memória KV cache durante a inferência de grandes modelos para 3,5 bit (cerca de 6 vezes), quase sem perda de precisão.Traduzido para “linguagem humana”: o Google Research apresentou um algoritmo que reduz de forma significativa o consumo de memória dos grandes modelos. Antes, havia coisas que só se conseguiam com 600G de memória; depois de usar este algoritmo, bastam 100G!No dia seguinte, alguns grandes fabricantes de armazenamento que ainda comiam fondue cantando músicas viram as suas ações cair de imediato.A Micron Technology caiu 3,4% na bolsa, com uma perda de capitalização de 15.166 milhões de dólares; a SanDisk (SanDisk) chegou a cair até 6,5%, e no fecho a queda foi reduzida para 3,5%, com uma perda de capitalização de 3,63 mil milhões de dólares. Western Digital (Western Digital) caiu 1,63%, com uma perda de capitalização de 1.66B de dólares.Fonte do gráfico: Sina FinanceTodo o sector de AI explodiu em discussão; toda a gente começou a analisar onde é que o TurboQuant é mesmo tão “formidável” e como é que ele afetaAté o CEO da Claudflare publicou um artigo a avaliar que isto é o “momento DeepSeek” da Google.Muitos amigos da comunidade podem ter visto esta notícia e, talvez, já tenham de sair a rir na cama: Bem feito! E agora, a memória e os discos SSD não vão cair também? Os nossos “parties” de montagem de PC finalmente aguentaram até ao fim e vão colher?Claro que eu também espero que a coisa evolua nesse sentido.Para descobrir se o nosso desejo mais simples e genuíno pode mesmo ser realizado, ainda fiz algum trabalho prévio e estudei o que é, afinal, o TurboQuant.Resultado: mal eu tinha começado a perceber como é o “Turbo” do TurboQuant, veio uma reviravolta de 180° ——Às 22h da noite de 27 de março, o pós-doutor Gao Jianyang da ETH de Zurique publicou em simultâneo posts em Zhihu, X e na plataforma de avaliação do ICLR, acusando que o artigo académico usado pela Google para apresentar o algoritmo TurboQuant continha graves irregularidades académicas.O Doutor Gao descobriu que o TurboQuant da Google, tal como a sua equipa tinha desenvolvido o algoritmo RaBitQ, colide fortemente no que diz respeito à base — a camada subjacente usa “rotação aleatória + transformação JL”.Dizer que “os heróis vêem-se de forma semelhante” até poderia passar, mas o absurdo é que as provas dos emails apresentados pelo Doutor Gao mostram que já em janeiro de 2025 o coautor Majid dessa tese da Google tinha enviado um email, discretamente e com ar de pedido, a solicitar ajuda ao Doutor Gao para conseguir correr o código do RaBitQ.Isto não está certo. O que é que isto representa: a Google teria explorado bem os detalhes do outro lado, mas na hora da “liquidação da vitória” não menciona nem uma palavra sobre o que o outro lado fez?Não se trata apenas de ocultar a fonte. A equipa do Turbo Quant da Google chegou mesmo a ignorar provas matemáticas estabelecidas e, diretamente no artigo, empurrou a teoria do Doutor Gao, dizendo apenas “ao vivo e a cores”.O Doutor Gao considera que o algoritmo RaBitQ da sua autoria foi estritamente comprovado e atinge padrões de topo do nível “conferência principal” em teoria da computação.No entanto, a equipa do TurboQuant nem sequer olhou para as deduções; sem qualquer evidência, no corpo do artigo colocou ao Doutor Gao um rótulo de “subótimo teórico, análise pouco rigorosa”.Mas o que mais custa a acreditar é a “dupla régua” dos resultados de benchmark da Google, num estilo quase “mágico”.No artigo, eles vendem a ideia de que o seu algoritmo é várias ordens de grandeza mais rápido do que o RaBitQ, mas as operações nos bastidores são extremamente baixas:A Google equipou-se com um monstro de capacidade de computação, a GPU A100; ao adversário, atribuiu um CPU com as opções de múltiplos threads desligadas.E além disso, em vez de usar o código C++ aberto que já existe e está altamente otimizado, insistiram em usar uma versão em Python, traduzida de forma meio “meio no improviso” pelo coautor do segundo artigo da tese do TurboQuant, para correr — acrescentando ainda outra camada de debuff ao algoritmo do Doutor Gao.Num email de maio do ano passado, o coautor do segundo artigo desta tese admitiu pessoalmente esta operação assimétrica de “um núcleo a atacar muitos núcleos”; e também admitiu ter sincronizado esta questão com os outros coautores da tese.Mas no artigo final publicado, estas duas camadas de informação de soft e hardware capazes de provocar diferenças em escala de variáveis foram apagadas por completo.Ao mesmo tempo, os autores da tese do TurboQuant também recusaram admitir que o algoritmo deles é estruturalmente semelhante ao RabitQ do Doutor Gao.Este artigo, cheio de erros e controvérsias, foi aceite pela conferência ICLR 2026. Mais tarde, surgiu a história que mencionámos no início: através dos canais oficiais do Google Research, esta tese foi promovida em larga escala.O Google Research só mencionou o quão “formidável” é o TurboQuant e quanto de memória consegue poupar, mas não disse uma única palavra sobre os vários erros do próprio artigo que suporta o TurboQuant.Estas promoções, com as visualizações em redes sociais já a atingirem dezenas de milhões, acabaram por provocar a turbulência nos mercados de ações de alguns dos principais fabricantes de armazenamento da semana passada.O Doutor Gao estima que também foi porque já não aguentava ver aquilo, e por isso decidiu publicar e tornar isto público, com provas contundentes.Em seguida, o mercado de armazenamento começou também a recuperar gradualmente da primeira vaga de turbulência.No próprio dia em que Amir Zandieh respondeu por email ao Doutor Gao, as ações da Micron Technology (MU) fecharam o dia a subir 0,5%, com um volume de transações de 16.25B de dólares; mas, ainda assim, nesta semana acumularam uma queda de 15,5%.Não sei que sensação os amigos acham depois de ouvir esta história.Eu sinto-me como aquele “pangolim” atrasado numa horta de frutas, a ver os colegas terminarem o fruto e já estarem a ir para o próximo, enquanto eu ando preocupado por ficar para trás.Mas, quando viro a cara, descubro que os “irmãos” já estão a lançar jatos — esta história, afinal, tem veneno.O que ainda é mais difícil de entender é isto: um artigo controverso, com erros óbvios, foi libertado pelo Google para publicidade só depois de um ano. E até o Doutor Gao se levantar para “bater” no Google, parece que também não ouvimos ninguém a questionar.O mercado não falou: apenas tremia; e o chamado “círculo de AI” era apenas uma festa — finalmente alguém consegue tratar o problema de os grandes modelos de AI irem a um ritmo louco a consumir memória.Entre as poucas instituições de análise que mantêm alguma lucidez, e também alguns meios de comunicação digitais nacionais, apenas apontaram que isto, no fundo, corresponde ao “paradoxo de Jevons” do velho chavão de Wall Street:O TurboQuant realmente reduz o custo de inferência com textos longos, mas quando o limite de entrada baixa, os fabricantes vão definitivamente soltar-se e desenvolver ——Agora, a norma principal das janelas de contexto dos modelos domésticos é 200K-256K; poucos conseguem chegar a 1M.Mas, no exterior, os modelos principais já conseguem 1M. Diz-me: com este conjunto de algoritmos, os modelos estrangeiros não vão tentar ampliar a vantagem? Os modelos domésticos não vão querer correr atrás e dar o “salto”?Quando chegar a altura, várias aplicações multimodais e de contexto longo serão lançadas em massa; como são melhores e mais fáceis de usar, os utilizadores e os cenários aumentam em múltiplos. Assim, a capacidade de computação e o hardware de armazenamento que o mundo realmente precisa não só não se poupa como acaba por ser “explodido” diretamente pela enorme procura.Mas as vozes a questionar se o TurboQuant é realmente tão poderoso parecem ter sido abafadas. No fundo, é como se uma grande parte das pessoas, sem confirmar e sem ir entender a situação real no meio académico, tivesse assumido como garantido que o TurboQuant da Google, sim, realmente consegue mudar o mundo.Claro que, quando digo isto, não é para criticar ninguém. Porque eu próprio, quando vi as notícias sobre o TurboQuant pela primeira vez, também fiquei entusiasmado como uma criança.O que eu quero deixar claro é que este “circo” do TurboQuant da Google expôs a impaciência de todos em relação à AI:Para alimentar este “sumidouro” de hardware, que consome tudo por causa da AI, já aguentámos demasiado.Desde o fim do ano passado, até produtos eletrónicos como o telemóvel—quase um por pessoa—subiram de preço devido ao aumento do preço da memória.Fonte do gráfico: “Xing Ke Du” Li QinlinAí a natureza do assunto muda — o caro de AI afinal vai exigir que toda a gente pague em conjunto.E, de forma irónica, até hoje ninguém consegue explicar claramente quanta produtividade a AI realmente gera, e quanta conveniência ela traz.No início deste ano, a Anthropic publicou um estudo importante sobre o impacto da AI no mercado de trabalho.O estudo mostra que, até agora, apenas algumas profissões específicas usam AI; e a taxa de penetração da AI no trabalho dessas pessoas também não é tão alta quanto se imaginava.Fonte do gráfico: AnthropicOu seja, este produto cujo nível real de penetração na indústria é baixo, que só ajuda alguns a ganhar dinheiro, e na prática não é assim tão útil—está a fazer com que os impactos negativos sejam pagos por toda a sociedade…Neste ponto, se alguém me disser: “agora há algo que pode fazer a fome de AI diminuir um pouco, e não continuar a fazer-me subir os preços”— então, claro que eu espero que essa notícia seja verdadeira.Pode ser também por isso que uma tese com erros, e um algoritmo que não foi investido para uso comercial, conseguiu desencadear uma tamanha onda.Só que, infelizmente, no fim tudo acaba por ser comprovado como apenas um engano.Texto por: Shi AngEdição: Zao Qi & Miro																														                                                                    Grande volume de notícias, interpretação precisa—tudo na app do Sina Finance

A queda de mais de 100 bilhões na fábrica de memória foi apenas um engano?

Tópicos em destaque

GateSquareAprilPostingChallenge

MarchNonfarmPayrollsIncoming

IsraelStrikesIranBTCPlunges

CryptoMarketSeesVolatility

OilPricesRise

Gate Fun tendência

TMP

特没谱

BHR

黑马纪元

LELE

乐乐

op

op

火箭

HJ

Fixar