Google, que ha destruido 90 mil millones de dólares en acciones de almacenamiento, con un paper de IA de Google, es acusado de falsificación en experimentos

Autor del texto original: Deep Tide TechFlow

Un artículo de Google, que se autodenomina «comprime el uso de memoria de la IA hasta 1/6», ha provocado la semana pasada la evaporación de más de 90.000 millones de dólares de la capitalización de mercado en acciones de chips de almacenamiento de todo el mundo, como Micron y SanDisk.

Sin embargo, solo dos días después de publicarse el artículo, el «avasallamiento» algorítmico frente a sus contrapartes —el postdoctorado en la ETH de Zúrich, Gao Jianyáng, publicó una carta abierta de más de diez mil caracteres— acusó que el equipo de Google, en sus experimentos, probó al rival con scripts de Python de CPU de un solo núcleo, pero se probó a sí mismo con una GPU A100, y que además, antes de someter el trabajo, ya le habían notificado los problemas, aun así se negó a corregirlos. Las lecturas en Zhihu superaron rápidamente los 4 millones, la cuenta oficial de Stanford NLP lo compartió; la academia y el mercado se sacudieron al mismo tiempo.

El núcleo de la controversia no es complejo: cuando una cumbre de IA, promovida masivamente y de forma directa por Google, y que desencadenó el pánico y la venta apresurada de todo el sector de chips a escala global, ¿deforma sistemáticamente un trabajo previo ya publicado, y —mediante la creación deliberada de experimentos injustos— moldea una narrativa falsa de ventaja de rendimiento?

TurboQuant hizo qué: comprimir el «papel borrador» de la IA hasta quedar en una sexta parte

Al generar respuestas, los modelos de lenguaje grande necesitan escribir mientras, al mismo tiempo, mirar hacia atrás y revisar el contenido calculado con anterioridad. Estos resultados intermedios se almacenan temporalmente en la memoria de la GPU; en la industria se les llama «KV Cache» (caché de clave y valor). Cuanto más larga sea la conversación, más gruesa es esa «hoja de borrador» y mayor es el consumo de memoria, además de aumentar el costo.

El algoritmo TurboQuant desarrollado por el equipo de investigación de Google tiene como punto de venta central comprimir esa hoja de borrador hasta 1/6 de su tamaño original, y al mismo tiempo afirma que no hay pérdida de precisión y que la velocidad de inferencia puede mejorar hasta 8 veces. El artículo se publicó por primera vez en abril de 2025 en el portal de prepublicación académica arXiv; en enero de 2026 fue aceptado por la conferencia de primer nivel en el campo de la IA ICLR 2026; y el 24 de marzo fue reempaquetado y promocionado nuevamente por el blog oficial de Google.

A nivel técnico, la idea de TurboQuant se puede entender de forma sencilla así: primero, mediante una transformación matemática, «lavar» los datos desordenados hasta un formato uniforme; luego, usar una tabla de compresión óptima ya calculada para comprimir uno por uno; finalmente, corregir las desviaciones de cálculo provocadas por la compresión con un mecanismo de corrección de errores de 1 bit. Implementaciones independientes en la comunidad ya han verificado que su efecto de compresión es básicamente verdadero; la contribución matemática del algoritmo existe de manera real.

La controversia no está en si TurboQuant puede usarse o no, sino en qué hizo Google para demostrar que «supera con creces» a los competidores.

Carta abierta de Gao Jianyáng: tres acusaciones, cada una da en el blanco

A las 10 p. m. del 27 de marzo, Gao Jianyáng publicó un texto largo en Zhihu y al mismo tiempo envió comentarios formales al portal oficial de revisión de ICLR, OpenReview. Gao Jianyáng es el primer autor del algoritmo RaBitQ; dicho algoritmo se publicó en 2024 en la conferencia de primer nivel del campo de bases de datos SIGMOD. Resuelve el mismo tipo de problema: la compresión eficiente de vectores de alta dimensión.

Sus acusaciones se dividen en tres partes, y cada una cuenta con registros de correo y respaldo de una línea de tiempo.

Acusación uno: usar el método central de otra persona y no mencionar nada en todo el texto.

TurboQuant y RaBitQ comparten un paso clave del núcleo técnico: antes de comprimir los datos, realizar primero una «rotación aleatoria» de los datos. Esta etapa sirve para convertir los datos originalmente distribuidos de forma irregular en una distribución uniforme y predecible, reduciendo así de manera drástica la dificultad de la compresión. Esta es la parte más central y la más cercana entre ambos algoritmos.

El propio autor de TurboQuant también admitió esto en su respuesta a la revisión, pero en el texto completo del artículo nunca explicó de manera directa la relación de este método con RaBitQ. Más importante aún, el trasfondo es este: la segunda autora de TurboQuant, Majid Daliri, se puso en contacto de forma proactiva con el equipo de Gao Jianyáng en enero de 2025, pidiendo ayuda para depurar su versión en Python, reescrita a partir del código fuente de RaBitQ. En el correo se describen detalladamente los pasos de replicación y los mensajes de error; dicho de otro modo, el equipo de TurboQuant conocía a fondo los detalles técnicos de RaBitQ.

Un revisor anónimo de ICLR también señaló de forma independiente que ambos usaban la misma tecnología y pidió que se discutiera plenamente. Pero en la versión final del artículo, el equipo de TurboQuant no solo no amplió la discusión; en cambio, trasladó la descripción original (ya incompleta) de RaBitQ que figuraba en el cuerpo del texto al apéndice.

Acusación dos: sin base, etiquetar la teoría del otro como «subóptima».

El artículo de TurboQuant etiqueta directamente a RaBitQ con el sello de «subóptima» (suboptimal) en términos teóricos, argumentando que el análisis matemático de RaBitQ «es relativamente tosco». Pero Gao Jianyáng señaló que el artículo de la versión ampliada de RaBitQ ya demostró de manera estricta que su error de compresión alcanza el límite óptimo matemático; esta conclusión se publicó en una conferencia de máximo nivel de ciencias de la computación teórica.

En mayo de 2025, el equipo de Gao Jianyáng había explicado en detalle por correo electrónico, en múltiples rondas, la optimalidad teórica de RaBitQ. La segunda autora de TurboQuant, Daliri, confirmó que ya había informado a todos los autores. Sin embargo, el artículo final mantuvo la expresión «subóptima» y no proporcionó ningún argumento de refutación.

Acusación tres: en los experimentos comparativos, «atar con la mano izquierda y sostener el cuchillo con la derecha».

Esta es la más contundente de todo el texto. Gao Jianyáng señaló que, en el experimento de comparación de velocidad del artículo de TurboQuant, se superponen dos condiciones de injusticia:

Primero, RaBitQ ofrece un código C++ optimizado (con soporte predeterminado para paralelismo multi-hilo), pero el equipo de TurboQuant no lo usó: probó RaBitQ con su propia versión traducida en Python. Segundo, al probar RaBitQ se usó una CPU de un solo núcleo y se desactivó el multihilo, mientras que TurboQuant usó una GPU NVIDIA A100.

El efecto combinado de estas dos condiciones es que el lector ve una conclusión de que «RaBitQ es más lento que TurboQuant por varios órdenes de magnitud», pero no tiene forma de saber que ese resultado presupone que el equipo de Google ata las manos al rival antes de competir y correr. El artículo no divulga suficientemente las diferencias de estas condiciones experimentales.

Respuesta de Google: «la rotación aleatoria es una técnica general; no se puede citar cada trabajo»

Según lo revelado por Gao Jianyáng, en la respuesta por correo del equipo de TurboQuant de marzo de 2026, indicaron: «el uso de rotación aleatoria y la transformación de Johnson-Lindenstrauss ya son técnicas estándar en el campo; no podemos citar cada artículo que use estos métodos».

El equipo de Gao Jianyáng considera que esto es un cambio de conceptos: el problema no es si se deben citar todos los artículos que han usado rotación aleatoria, sino que RaBitQ combinó por primera vez este método con la compresión de vectores y lo demostró como óptimo bajo exactamente el mismo planteamiento de problema. Por ello, el artículo de TurboQuant debería describir con precisión la relación entre ambos.

Stanford NLP Group compartió en la cuenta oficial de X la declaración de Gao Jianyáng. El equipo de Gao Jianyáng ya publicó comentarios públicos en la plataforma ICLR OpenReview, y presentó una queja formal ante el presidente de la conferencia ICLR y el comité de ética; posteriormente también publicarán un informe técnico detallado en arXiv.

El blogger técnico independiente Dario Salvati dio en su análisis una evaluación relativamente neutral: TurboQuant tiene, efectivamente, contribuciones reales en el método matemático, pero la relación con RaBitQ es mucho más estrecha que lo que sugiere la formulación del artículo.

Se evaporan 90.000 millones de dólares de capitalización de mercado: controversia académica que alimenta el pánico del mercado

Este conflicto académico ocurre en un momento extremadamente delicado. Después de que Google publicara TurboQuant mediante el blog oficial el 24 de marzo, el sector global de chips de almacenamiento sufrió una intensa ola de ventas. Según múltiples medios como CNBC, Micron cayó durante seis sesiones consecutivas, con una caída acumulada de más del 20%; SanDisk cayó 11% en un solo día; SK Hynix de Corea bajó aproximadamente 6%, Samsung Electronics cayó cerca de 5% y Kioxia en Japón cayó aproximadamente 6%. La lógica del pánico del mercado es simple y cruda: la compresión de software puede reducir en 6 veces la necesidad de memoria para la inferencia de IA; el panorama de demanda de los chips de almacenamiento será rebajado de forma estructural.

El analista de Morgan Stanley, Joseph Moore, rebatió esta lógica en su informe de investigación del 26 de marzo y mantuvo la calificación de «comprar más» para Micron y SanDisk. Moore señaló que la compresión de TurboQuant solo comprime un tipo específico de caché, el KV Cache, y no el uso total de memoria, y lo calificó como una «mejora normal de productividad en producción». El analista de Wells Fargo, Andrew Rocha, también citó la paradoja de Jevons, argumentando que, después de que una mejora de eficiencia reduzca costos, podría estimular despliegues de IA a mayor escala y, en última instancia, aumentar la demanda de memoria.

Papers antiguos, nuevo empaquetado: riesgo de cadena de transmisión entre la investigación de IA y el relato del mercado

Según el análisis del blogger técnico Ben Pouladian, el artículo de TurboQuant ya había sido publicado abiertamente en abril de 2025 y no era una investigación nueva. El 24 de marzo, Google reempaquetó y promocionó el trabajo a través del blog oficial; sin embargo, el mercado lo valoró como un avance completamente nuevo. Esta estrategia de promoción de «artículo antiguo, nueva publicación», sumada a posibles sesgos experimentales dentro del artículo, refleja un riesgo sistémico en la cadena de transmisión de la investigación de IA desde los papers académicos hasta el relato del mercado.

Para los inversores en infraestructura de IA, cuando un paper afirma lograr mejoras de «varios órdenes de magnitud» en el rendimiento, lo primero que se necesita preguntarse es si las condiciones de referencia son justas.

El equipo de Gao Jianyáng ya ha declarado con claridad que seguirá impulsando la solución formal de este problema. Google aún no ha emitido una respuesta oficial a las acusaciones específicas de la carta abierta.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado