Google AI, cuja publicação foi acusada de manipulação de experimentos, foi responsável por uma perda de 90 mil milhões de dólares em ações de armazenamento

Autor do texto original: Deep Tide TechFlow

Um artigo do Google, supostamente “comprimir a utilização de memória da IA para 1/6”, divulgado na semana passada, provocou a eliminação de mais de 900 mil milhões de dólares em valor de mercado de ações de chips de armazenamento a nível global, incluindo Micron e SanDisk.

No entanto, apenas dois dias após a publicação do artigo, o pós-doutorando da ETH Zurich Gao Jiany yang publicou uma carta aberta de milhares de palavras, acusando que a equipa do Google, nos seus testes, usou scripts Python num CPU de um núcleo para avaliar o adversário, mas usou um GPU A100 para testar o próprio sistema, e que, antes de submeter, já tinha sido informado do problema e ainda assim se recusou a corrigi-lo. A leitura na plataforma Zhihu ultrapassou rapidamente 4 milhões, a conta oficial do Stanford NLP republicou o conteúdo, e tanto a comunidade académica como o mercado ficaram abalados em simultâneo.

O cerne desta controvérsia não é complicado: um artigo de conferência “top” de IA, promovido em larga escala e diretamente responsável por causar pânico e venda em massa no setor global de chips, distorce sistematicamente um trabalho anterior já publicado e, através de experiências propositadamente injustas, cria uma narrativa de vantagens de desempenho falsas?

TurboQuant fez o quê: comprimir o “papel de rascunho” da IA até um sexto do original

Ao gerar respostas, os grandes modelos de linguagem precisam de escrever enquanto consultam novamente conteúdos que calcularam anteriormente. Esses resultados intermédios são temporariamente guardados na memória de vídeo; na indústria, chama-se “KV Cache” (cache de chave-valor). Quanto mais longa for a conversa, mais “espesso” fica esse “papel de rascunho”, aumentando o consumo de memória de vídeo e, consequentemente, os custos.

O algoritmo TurboQuant desenvolvido pela equipa de investigação do Google tem como principal ponto de venda comprimir esse papel de rascunho para 1/6 do original, ao mesmo tempo que alega perda zero de precisão e um aumento de velocidade de inferência até 8 vezes. O artigo foi publicado pela primeira vez em abril de 2025 na plataforma de pré-publicação académica arXiv; em janeiro de 2026 foi aceite na conferência de topo do domínio da IA ICLR 2026; e em 24 de março foi reembalado e promovido novamente pelo blogue oficial do Google.

Em termos técnicos, a ideia do TurboQuant pode ser entendida de forma simples: primeiro “lavar” dados caóticos para um formato uniforme com uma transformação matemática; depois comprimir individualmente usando uma tabela de compressão ótima previamente calculada; por fim, corrigir as divergências de cálculo causadas pela compressão com um mecanismo de correcção de erros de 1 bit. Implementações independentes da comunidade já verificaram que o efeito de compressão é essencialmente verdadeiro; as contribuições matemáticas ao nível do algoritmo existem de facto.

A controvérsia não está em saber se o TurboQuant pode ou não ser usado; está no que o Google fez para provar que é “muito superior” aos concorrentes.

Carta aberta de Gao Jiany yang: três acusações, cada uma acertando no alvo

Às 22:00 do dia 27 de março, Gao Jiany yang publicou um texto longo no Zhihu e, em simultâneo, submeteu comentários formais na plataforma oficial de revisão do ICLR, o OpenReview. Gao Jiany yang é o primeiro autor do algoritmo RaBitQ, que foi publicado em 2024 na conferência de topo da área de bases de dados SIGMOD. Esse algoritmo resolve uma categoria de problemas semelhante — compressão eficiente de vectores de alta dimensão.

As suas acusações dividem-se em três partes, e cada uma tem registos de e-mail e uma linha temporal como prova.

Acusação 1: usou métodos centrais de outra pessoa, sem mencionar nada no corpo do texto.

O núcleo técnico de uma etapa crucial é comum entre o TurboQuant e o RaBitQ: antes de comprimir os dados, primeiro é aplicada uma “rotação aleatória” aos dados. O objetivo desta etapa é transformar os dados originalmente distribuídos de forma irregular num conjunto distribuído de modo uniforme e previsível, reduzindo drasticamente a dificuldade de compressão. Esta é a parte mais central e a mais próxima entre os dois algoritmos.

O próprio autor do TurboQuant reconhece essa questão nas respostas às revisões, mas nunca explica de forma directa no texto completo qual a relação deste método com o RaBitQ. E mais importante ainda: o segundo autor do TurboQuant, Majid Daliri, em janeiro de 2025 contactou proactivamente a equipa de Gao Jiany yang, pedindo ajuda para depurar a sua versão em Python reescrita a partir do código-fonte do RaBitQ. O e-mail descrevia em detalhe os passos de replicação e as mensagens de erro — em outras palavras, a equipa do TurboQuant conhece profundamente os detalhes técnicos do RaBitQ.

Um revisor anónimo do ICLR também apontou de forma independente que os dois usam a mesma tecnologia, exigindo uma discussão suficientemente abrangente. Mas na versão final do artigo, a equipa do TurboQuant não só não acrescentou essa discussão como, pelo contrário, moveu a descrição (já incompleta) do RaBitQ, que existia no corpo do texto, para o apêndice.

Acusação 2: sem evidência, rotulou a teoria do outro como “subóptima”.

O artigo do TurboQuant aplica directamente ao RaBitQ a etiqueta de “suboptimal” (teoricamente subóptimo), com o argumento de que a análise matemática do RaBitQ é “relativamente grosseira”. Porém, Gao Jiany yang assinalou que a versão em versão expandida do artigo do RaBitQ já prova rigorosamente que o seu erro de compressão atinge o limite matematicamente óptimo — uma conclusão publicada na conferência de topo de ciências da computação teóricas.

Em maio de 2025, a equipa de Gao Jiany yang já explicou de forma detalhada a optimalidade teórica do RaBitQ em várias rondas de e-mails. O segundo autor do TurboQuant, Daliri, confirmou que já tinha informado todos os autores. Ainda assim, o artigo final manteve a formulação de “subóptima”, sem apresentar qualquer argumento de refutação.

Acusação 3: na comparação experimental, “amarrar a mão esquerda” e “segurar a lâmina com a direita”.

Esta é a mais contundente de todo o texto. Gao Jiany yang aponta que, no experimento de comparação de velocidade, o artigo do TurboQuant sobrepõe duas camadas de condições injustas:

Primeiro, o sítio oficial do RaBitQ fornece código C++ optimizado (com suporte por defeito a paralelismo multi-thread), mas a equipa do TurboQuant não o usou; em vez disso, testou o RaBitQ usando a sua própria versão em Python traduzida. Segundo, ao testar o RaBitQ, foi utilizado CPU de um único núcleo com multi-threading desactivado, enquanto o TurboQuant foi executado em NVIDIA A100 GPU.

O efeito combinado destas duas condições é: o leitor vê a conclusão de que “o RaBitQ é mais lento do que o TurboQuant em várias ordens de grandeza”, mas não tem como saber que esse resultado depende do facto de a equipa do Google ter imobilizado o adversário antes da corrida. O artigo não divulga suficientemente as diferenças destas condições experimentais.

Resposta do Google: “rotação aleatória” é uma técnica geral, não dá para citar todas

Segundo a divulgação de Gao Jiany yang, a equipa do TurboQuant, na resposta por e-mail de março de 2026, afirmou: “O uso de rotação aleatória e da transformação de Johnson-Lindenstrauss já é uma técnica padrão na área; não podemos citar todos os artigos que usam esses métodos.”

A equipa de Gao Jiany yang considera que isso é uma mudança de assunto: o problema não é saber se é necessário citar todos os artigos que alguma vez usaram rotação aleatória; o ponto é que o RaBitQ, sob exactamente o mesmo enquadramento do problema, foi o primeiro a combinar este método com compressão de vectores e a provar a sua optimalidade, pelo que o artigo do TurboQuant deve descrever com exactidão a relação entre os dois.

A conta oficial do X do Stanford NLP Group republicou a declaração de Gao Jiany yang. A equipa de Gao Jiany yang já publicou comentários públicos na plataforma ICLR OpenReview e apresentou uma reclamação formal ao presidente da conferência ICLR e ao comité de ética; posteriormente, também irá publicar um relatório técnico detalhado no arXiv.

O blogger técnico independente Dario Salvati, na sua análise, apresentou uma avaliação relativamente neutra: o TurboQuant tem, de facto, contribuições reais nos métodos matemáticos, mas a relação com o RaBitQ é muito mais estreita do que a que o artigo descreve.

Perda de 900 mil milhões de dólares de capitalização: a controvérsia do artigo sobrepõe-se ao pânico do mercado

O momento em que esta controvérsia académica ocorreu é extremamente delicado. Depois de a Google ter publicado o TurboQuant via blogue oficial a 24 de março, o setor global de chips de armazenamento sofreu uma venda intensa. De acordo com vários meios de comunicação social, incluindo CNBC, a Micron caiu durante seis sessões consecutivas e a queda acumulada ultrapassou 20%; a SanDisk caiu 11% num único dia; a SK Hynix caiu cerca de 6% na Coreia do Sul; a Samsung Electronics caiu perto de 5%; e a Kioxia (Japão) caiu cerca de 6%. A lógica do pânico do mercado é simples e directa: a compressão de software consegue reduzir em 6 vezes as necessidades de memória para inferência de IA, e as perspectivas de procura dos chips de armazenamento serão reduzidas estruturalmente.

O analista do Morgan Stanley, Joseph Moore, contestou esta lógica no relatório de pesquisa de 26 de março e manteve a recomendação de “manter/comprar reforçado” para a Micron e a SanDisk. Moore apontou que o que é comprimido pelo TurboQuant é apenas o KV Cache, um tipo específico de cache, e não o uso global de memória; e classificou isso como “uma melhoria normal de produtividade de produção”. O analista do Bank of America, Andrew Rocha, invocou também o paradoxo de Jevons: a melhoria de eficiência, ao reduzir custos, pode na verdade estimular uma implementação ainda maior de IA, acabando por aumentar a procura de memória.

Artigo antigo, nova embalagem: risco de cadeia de transmissão da pesquisa em IA para o discurso do mercado

Segundo a análise do blogger técnico Ben Pouladian, o artigo do TurboQuant já tinha sido publicado publicamente em abril de 2025 e não é uma investigação nova. A 24 de março, a Google reembalou e promoveu o artigo via blogue oficial; porém, o mercado precificou-o como uma descoberta totalmente nova. Esta estratégia de promoção de “artigo antigo, nova publicação”, combinada com possíveis vieses experimentais no artigo, reflete riscos sistémicos na cadeia de transmissão da pesquisa em IA — dos artigos académicos para o discurso do mercado.

Para investidores em infra-estruturas de IA, quando um artigo afirma obter melhorias de desempenho em “várias ordens de grandeza”, a primeira pergunta que se deve fazer é se as condições da comparação de referência são justas.

A equipa de Gao Jiany yang já declarou claramente que continuará a impulsionar a resolução formal do problema. Até ao momento, a Google ainda não respondeu formalmente às acusações específicas da carta aberta.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar