Google AI, cuja publicação foi acusada de manipulação de experimentos, foi responsável por uma perda de 90 mil milhões de dólares em ações de armazenamento

Autor do texto: Deep Tide TechFlow

Um artigo do Google, que se apresenta como «uma compressão da memória da IA para 1/6», desencadeou na semana passada uma evaporação de mais de 90 mil milhões de dólares de valor de mercado nas ações de chips de armazenamento em todo o mundo, como a Micron e a SanDisk.

No entanto, apenas dois dias após a publicação do artigo, o «despiste» alegadamente feito pelo algoritmo nas comparações — o pós-doutorando da ETH Zurich (Universidade Técnica de Zurique) Gao Jiany yang publicou uma carta aberta de várias dezenas de milhares de caracteres, acusando que a equipa do Google, nos seus testes experimentais, utilizou scripts em Python com CPU de núcleo único para testar o adversário, mas utilizou uma GPU A100 para se testar a si própria, e que, antes de submeter o artigo, já lhe tinham sido apontados os problemas e, mesmo assim, se recusou a corrigi-los. A leitura na plataforma Zhihu ultrapassou rapidamente 4 milhões; a conta oficial de Stanford NLP partilhou o conteúdo, e tanto o meio académico como o mercado ficaram abalados.

A questão central desta controvérsia não é complexa: um artigo da cimeira de IA amplamente promovido pelo próprio Google, que desencadeou diretamente um pânico de venda à escala global na vaga de ações de chips, estará a distorcer sistematicamente um trabalho anterior já publicado e, através da criação deliberada de experiências injustas, a moldar uma narrativa de vantagens de desempenho falsas?

O que o TurboQuant fez: afinou o «papel de rascunho» da IA até um sexto do original

Quando os modelos de linguagem geram respostas, precisam de escrever e, ao mesmo tempo, voltar a consultar conteúdos previamente calculados. Esses resultados intermédios são temporariamente guardados na memória do GPU; na indústria, chamam-lhe «KV Cache» (cache de valores e chaves). Quanto mais longa for a conversa, mais «espesso» fica esse «papel de rascunho» e maior é o consumo de memória e, por consequência, o custo.

O algoritmo TurboQuant desenvolvido pela equipa de investigação do Google tem como ponto central a compressão desse papel de rascunho para 1/6 do original, ao mesmo tempo que afirma não perder precisão e melhorar a velocidade de inferência em até 8 vezes. O artigo foi publicado pela primeira vez em abril de 2025, na plataforma de preprints arXiv; em janeiro de 2026 foi aceite pela conferência cimeira da área de IA ICLR 2026; a 24 de março foi reembalado e promovido novamente no blogue oficial do Google.

Em termos técnicos, a ideia do TurboQuant pode compreender-se simplesmente assim: primeiro, usa uma transformação matemática para «lavar» dados desordenados num formato uniforme; depois, comprime-os um a um com uma tabela de compressão ótima calculada previamente; por fim, utiliza um mecanismo de correção de erros de 1 bit para corrigir o desvio de cálculo causado pela compressão. Implementações independentes da comunidade já verificaram que o efeito de compressão é, em grande medida, consistente com o prometido; as contribuições matemáticas a nível do algoritmo são verdadeiramente existentes.

A controvérsia não está em saber se o TurboQuant pode ser usado, mas sim em perceber o que o Google fez para provar que «supera» os concorrentes.

Carta aberta do Gao Jiany yang: três acusações, cada uma atinge o ponto

Às 22:00 de 27 de março, Gao Jiany yang publicou um texto longo no Zhihu, e em paralelo submeteu comentários formais na plataforma oficial de revisão do ICLR, o OpenReview. Gao Jiany yang é o primeiro autor do algoritmo RaBitQ; este algoritmo foi publicado em 2024 na conferência cimeira da área de bases de dados SIGMOD, resolvendo o mesmo tipo de problema — compressão eficiente de vetores de alta dimensão.

As suas acusações dividem-se em três pontos, e cada um deles tem registos de e-mail e uma linha temporal como prova.

Acusação 1: usou o método central de outra pessoa, sem mencionar no texto todo.

O núcleo técnico do TurboQuant e do RaBitQ tem um passo comum fundamental: antes de comprimir os dados, é realizada uma «rotação aleatória» sobre os dados. Esta operação tem como objetivo transformar dados originalmente distribuídos de forma não regular numa distribuição uniforme e previsível, reduzindo drasticamente a dificuldade de compressão. Esta é a parte mais central e mais próxima entre os dois algoritmos.

O autor do TurboQuant também reconhece isto na resposta à revisão, mas, em todo o artigo, nunca explica diretamente a ligação deste método com o RaBitQ. Mais importante, porém, é o seguinte contexto: o segundo autor do TurboQuant, Majid Daliri, em janeiro de 2025 contactou proativamente a equipa do Gao Jiany yang, pedindo ajuda para depurar a sua versão em Python, reescrita com base no código-fonte do RaBitQ. No e-mail, descrevem detalhadamente os passos de replicação e as mensagens de erro — ou seja, a equipa do TurboQuant conhecia muito bem os detalhes técnicos do RaBitQ.

Um revisor anónimo do ICLR também apontou de forma independente que os dois usaram a mesma técnica, exigindo que se discutisse devidamente. Mas, na versão final do artigo, a equipa do TurboQuant não só não acrescentou discussão, como transferiu a descrição original (já incompleta) do RaBitQ, que antes estava no corpo do texto, para o apêndice.

Acusação 2: sem qualquer fundamento, chama ao adversário «subótimo» teoricamente.

O artigo do TurboQuant etiqueta diretamente o RaBitQ como «suboptimal» (teoricamente subótimo), justificando que a análise matemática do RaBitQ é «relativamente grosseira». No entanto, Gao Jiany yang aponta que o artigo em versão expandida do RaBitQ já provou de forma rigorosa que o erro de compressão atinge o limite ótimo matemático — uma conclusão publicada na conferência cimeira de ciência da computação teórica.

Em maio de 2025, a equipa do Gao Jiany yang já tinha explicado em várias rondas de e-mail a optimalidade teórica do RaBitQ. O segundo autor do TurboQuant, Daliri, confirmou que tinha informado todos os autores. Ainda assim, o artigo final manteve a formulação «subótimo», sem apresentar quaisquer argumentos de refutação.

Acusação 3: nos testes comparativos, «amarrar o homem à esquerda, empunhar a espada com a mão direita».

Este é o ponto mais letal de todo o texto. Gao Jiany yang afirma que, nos ensaios de comparação de velocidade, o artigo do TurboQuant empilha duas condições de injustiça:

Em primeiro lugar, o código C++ otimizado fornecido oficialmente para o RaBitQ (com suporte por defeito para paralelismo multi-thread) não foi utilizado pela equipa do TurboQuant; em vez disso, foi usada uma versão em Python traduzida pela própria equipa para testar o RaBitQ. Em segundo lugar, ao testar o RaBitQ, usaram CPU de núcleo único e desativaram o multi-thread, enquanto o TurboQuant foi testado com uma GPU NVIDIA A100.

O efeito cumulativo destas duas condições é o seguinte: os leitores veem a conclusão de que «o RaBitQ é mais lento do que o TurboQuant em vários ordens de grandeza», mas não sabem que a premissa dessa conclusão é que a equipa do Google amarrou as mãos e os pés do adversário antes de correrem a corrida. O artigo não divulga de forma suficiente as diferenças entre estas condições experimentais.

Resposta do Google: «rotação aleatória é técnica universal; não é possível citar tudo»

Segundo o que Gao Jiany yang revelou, na resposta por e-mail da equipa do TurboQuant em março de 2026, indicaram: «O uso de rotação aleatória e de transformações de Johnson-Lindenstrauss já é tecnologia padrão nesta área; não podemos citar cada artigo que usa estes métodos.»

A equipa do Gao Jiany yang considera que isto é uma troca de conceitos: o problema não é saber se é preciso citar todos os artigos que já usaram rotações aleatórias; o problema é que o RaBitQ foi o primeiro a combinar este método com compressão de vetores sob exatamente as mesmas definições do problema e a provar a sua optimalidade — por isso, o artigo do TurboQuant deve descrever com precisão a relação entre ambos.

A conta oficial do X do Stanford NLP Group partilhou a declaração do Gao Jiany yang. A equipa do Gao Jiany yang já publicou comentários públicos na plataforma ICLR OpenReview e apresentou uma reclamação formal ao presidente da conferência ICLR e ao comité de ética; depois disso, ainda publicará um relatório técnico detalhado no arXiv.

Um blog de tecnologia independente, Dario Salvati, forneceu uma avaliação relativamente neutra na sua análise: o TurboQuant tem de facto contribuições reais na abordagem matemática, mas a relação com o RaBitQ é muito mais estreita do que a apresentada no artigo.

Evaporação de 90 mil milhões de dólares de valor de mercado: controvérsia do artigo e pânico do mercado em simultâneo

Esta controvérsia académica ocorreu num timing extremamente sensível. Depois de o Google ter publicado o TurboQuant através do blogue oficial a 24 de março, o setor global de chips de armazenamento sofreu uma venda maciça. De acordo com vários meios de comunicação como a CNBC, a Micron Technologies caiu durante seis sessões consecutivas, com uma queda acumulada superior a 20%; a SanDisk caiu 11% num único dia; a SK Hynix da Coreia caiu cerca de 6%, a Samsung Electronics desceu quase 5% e a Kioxia do Japão caiu cerca de 6%. A lógica do pânico do mercado é simples e brutal: a compressão em software consegue reduzir em 6 vezes a necessidade de memória para inferência de IA; as perspetivas de procura dos chips de armazenamento serão ajustadas em baixa de forma estrutural.

O analista da Morgan Stanley, Joseph Moore, contrariou esta lógica no relatório de 26 de março, mantendo a recomendação de «manter» (overweight) para a Micron e a SanDisk. Moore indica que o TurboQuant comprime apenas um tipo específico de cache, o KV Cache, e não o uso total de memória, e descreve isto como «uma melhoria normal de produtividade». O analista do banco Wells Fargo, Andrew Rocha, também invoca o paradoxo de Jevons: ao reduzir custos com ganhos de eficiência, pode-se, em vez disso, estimular uma implantação de IA em escala ainda maior, acabando por aumentar a procura de memória.

Artigo antigo, nova embalagem: risco de propagação da investigação em IA ao discurso do mercado

De acordo com a análise do blogue de tecnologia Ben Pouladian, o artigo do TurboQuant já tinha sido publicado publicamente em abril de 2025 e não se trata de uma investigação nova. A 24 de março, o Google reembalou e promoveu o artigo novamente via blogue oficial, mas o mercado passou a tratá-lo como uma descoberta totalmente nova para efeitos de precificação. Esta estratégia de promoção de «artigo antigo, nova publicação», combinada com eventuais desvios experimentais no próprio artigo, reflete um risco sistémico da investigação em IA — desde artigos académicos até cadeias de transmissão do discurso no mercado.

Para investidores em infraestruturas de IA, quando um artigo afirma ter alcançado melhorias de «várias ordens de grandeza», a primeira pergunta que se deve fazer é se as condições de comparação de referência (benchmark) são justas.

A equipa do Gao Jiany yang já deixou claro que continuará a impulsionar uma resolução formal do problema. Por parte do Google, ainda não houve uma resposta oficial às acusações específicas da carta aberta.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar