Un artículo de Google que hizo tambalear las acciones globales de almacenamiento genera controversia académica. Los académicos chinos afirman que es gravemente inexacto y que no corrigen sus errores: usaron nuestro método pero evadieron deliberadamente la similitud.

记者|岳楚鹏

El 26 de marzo, un artículo del Google Research sacudió el mercado mundial de chips de almacenamiento, provocando la evaporación de más de 90 mil millones de dólares de la capitalización de mercado de gigantes de Estados Unidos y Corea.

El paper de Google afirma que un nuevo algoritmo llamado TurboQuant puede comprimir el uso de memoria del caché KV de modelos de IA a 1/6 de su tamaño original sin perder precisión.

Solo un día después, el investigador posdoctoral Gao Jianyang del Instituto Federal de Tecnología de Zúrich publicó un mensaje en una plataforma social, señalando directamente que el artículo de Google tiene graves problemas académicos.

Gao Jianyang señaló que Google evitó la similitud entre el algoritmo TurboQuant y el método RaBitQ que él publicó en 2024 durante su doctorado en la Universidad Tecnológica Nanyang de Singapur (NTU), describió de manera incorrecta los resultados teóricos de RaBitQ y, además, creó a propósito un entorno experimental injusto.

RaBitQ es un algoritmo de cuantización vectorial que puede garantizar la fiabilidad de la búsqueda incluso cuando los datos vectoriales se comprimen altamente.

Gao Jianyang también dijo que el equipo de TurboQuant de Google “reconoce el error pero no lo corrige”. Antes de que el paper de Google se publicara oficialmente en abril de 2025, él ya había señalado por correo los problemas mencionados; pero después de enterarse, Google aún no hizo una corrección exhaustiva en la versión final.

El 29 de marzo, el periodista del Diario Económico de China (denominado NBD a continuación) entrevistó a los autores del paper de RaBitQ, Gao Jianyang y Long Cheng.

RaBitQ es el trabajo principal de Gao Jianyang durante su doctorado en la Universidad Tecnológica Nanyang de Singapur; Long Cheng es su director de tesis de doctorado.

Al mismo tiempo, el periodista del Diario Económico de China también envió un correo de entrevista a Google, pero a la fecha de cierre del envío, no había recibido respuesta. Se sabe que el Google Research presentará su paper de TurboQuant en la Conferencia Internacional sobre Representación del Aprendizaje 2026 (ICLR 2026) que se celebrará en abril.

Gao Jianyang Imagen: proporcionada por el entrevistado

NBD: ¿Cuándo notaron por primera vez que el paper de Google TurboQuant tenía problemas?

Gao Jianyang: Ya en enero de 2025, el segundo autor del paper TurboQuant, Majid Daliri, nos contactó proactivamente y nos pidió ayuda para depurar su versión en Python traducida a partir del código C++ de RaBitQ, además de describir pasos de reproducción detallados y la información de los errores. Esto muestra que el equipo de TurboQuant conoce a fondo los detalles técnicos de RaBitQ.

Después de la publicación del paper TurboQuant en abril de 2025, notamos que la descripción de RaBitQ en ese paper es gravemente inexacta: se describe RaBitQ como grid-based PQ (cuantización por productos basada en una cuadrícula), ignorando por completo su paso central de rotación aleatoria, y sin ninguna deducción ni evidencia se califican las garantías teóricas de RaBitQ como “subóptimas”; además, las comparaciones experimentales tienen un diseño claramente injusto.

Nuestra primera reacción fue la confusión y la decepción: la similitud entre TurboQuant y RaBitQ es técnicamente claramente identificable, y además el conocimiento del otro equipo sobre RaBitQ está muy por encima del de un lector promedio. En esas circunstancias, una descripción tan sistemática e inexacta es difícil de explicar como simple descuido.

NBD: Antes de que ambas partes hicieran declaraciones públicas, ¿hubo comunicación entre los equipos?

Gao Jianyang: Tuvimos varias rondas de comunicación, con un intervalo de más de un año.

En mayo de 2025, mediante correo, tuvimos una discusión técnica detallada con Majid Daliri sobre las diferencias en condiciones experimentales y la optimalidad de los resultados teóricos; aclaramos, punto por punto, interpretaciones erróneas del equipo de TurboQuant. Majid Daliri indicó claramente que había compartido los resultados de la discusión con todos los coautores.

Sin embargo, después de que pedimos corregir los errores fácticos en el paper, dejó de responder.

En noviembre de 2025 descubrimos que TurboQuant ya había presentado ICLR 2026 (Conferencia Internacional sobre Representación del Aprendizaje 2026), y el contenido erróneo seguía intacto. Enseguida contactamos a los ICLR 2026 PC Chairs (presidentes del comité), pero no recibimos respuesta.

Después de que, en marzo de 2026, el paper se promocionara masivamente por canales oficiales de Google, enviamos nuevamente un correo formal a todos los autores.

La respuesta recibida fue: el primer autor, Amir Zandieh, se comprometió a corregir la descripción teórica y las condiciones experimentales, pero rechazó explícitamente corregir la discusión sobre la similitud metodológica, y afirmó que solo haría cambios después de que finalizara formalmente la Conferencia ICLR 2026. Esta respuesta nos decepcionó, pero no nos sorprendió. Evidentemente el otro lado sabía cuál era el problema, pero eligió una concesión mínima.

NBD: ¿Cuál es la similitud más clave entre TurboQuant y RaBitQ?

Gao Jianyang: La similitud más esencial es que ambos adoptan, antes de la cuantización, la aplicación de una rotación aleatoria a los vectores (transformación de Johnson-Lindenstrauss) como diseño clave, y utilizan la propiedad estadística de la distribución de coordenadas después de la rotación para construir un estimador de distancias.

Es digno de notar que, en la respuesta del equipo autoral de TurboQuant en ICLR OpenReview (una plataforma de revisión pública de artículos académicos de uso común en el ámbito académico), describieron su método así: “Nuestra implementación es la siguiente: primero normalizamos los vectores con su norma L2, y luego aplicamos una rotación aleatoria una vez, para asegurar que cada una de las componentes de esos vectores después de la rotación siga una distribución Beta”. Esto coincide estrechamente con el mecanismo central de RaBitQ, pero en el cuerpo del paper nunca se explica de manera directa esa conexión.

Se puede entender con una analogía: supongamos que un chef publica primero una receta completa de un plato; después, otro chef publica un plato que emplea casi los mismos pasos centrales, pero en su introducción describe al primero como “una receta diferente, con peores resultados”, y no menciona en absoluto la conexión entre ambos.

Sin que los lectores lo sepan, naturalmente no pueden llegar a una valoración justa.

Long Cheng Imagen: proporcionada por el entrevistado

NBD: Según las normas académicas, ¿cómo debería manejarse una relación de este tipo?

Long Cheng: Las normas académicas exigen que, cuando un nuevo trabajo tenga una conexión sustancial y real en su metodología con un trabajo existente, se debe citarlo de forma explícita y discutir directamente esa conexión, incluida la explicación de en qué aspectos el nuevo trabajo avanza y cuáles aspectos conserva del marco existente.

Este punto es especialmente importante en este caso, porque un revisor de ICLR también señaló de manera independiente en sus comentarios que “RaBitQ y sus variantes comparten la similitud con TurboQuant en que ambas usan proyección aleatoria”, y además exigió una discusión y comparación más completa.

Incluso el revisor se dio cuenta de esa conexión, pero los autores del paper no solo no agregaron una discusión en la versión final; en cambio, movieron la descripción incompleta original sobre RaBitQ del cuerpo del texto al apéndice. Esta forma de proceder va en contra de los requisitos básicos de las normas académicas.

NBD: ¿Por qué elegir hacer esto público ahora, en lugar de seguir resolviéndolo internamente por la vía académica?

Long Cheng: No estamos saltándonos la vía académica. Elegimos hacer público el asunto cuando la vía académica ya había terminado básicamente.

Contactamos sucesivamente a los autores del paper, a los ICLR PC Chairs (presidentes del programa), y también presentamos una queja formal a los ICLR General Chairs (presidentes de la conferencia) y a los Code and Ethics Chairs (presidentes de código y ética), adjuntando un paquete completo de evidencias; al mismo tiempo, publicamos comentarios públicos en la plataforma ICLR OpenReview.

Pero también tenemos que admitir una realidad: somos un equipo de investigación universitario pequeño, mientras que el otro lado es el Google Research. En recursos, influencia y poder de voz, no hay igualdad entre ambas partes.

El paper de TurboQuant alcanzó decenas de millones de visualizaciones en las redes sociales relacionadas en un corto periodo de tiempo, lo que ningún laboratorio universitario puede tener.

Con un desequilibrio así, si seguimos callados y esperando los procesos internos, el relato erróneo solo acelerará su consolidación como consenso. Hacer declaraciones públicas es una de las pocas medidas que una parte débil puede tomar cuando la respuesta a través de los canales formales se retrasa, para mantener los hechos académicos básicos.

NBD: Si los problemas relacionados no se corrigen, ¿qué impactos podría traer?

Long Cheng: Primero, distorsionaría sistemáticamente el registro de la historia académica, llevando a investigadores posteriores a malinterpretar el origen de la evolución metodológica y, por ende, construir nuevos trabajos sobre bases equivocadas.

Segundo, afectaría los mecanismos de incentivo a la investigación original. Si un método que, después de una rigurosa deducción teórica, alcanza un límite de error asintóticamente óptimo puede volver a empaquetarse y lanzarse al público con una exposición de decenas de millones, mientras que el autor original no recibe el reconocimiento que merece, el daño al ecosistema académico es a largo plazo y profundo.

Tercero, en el campo de la cuantización vectorial, que está en una fase de rápido desarrollo y que es muy atendido por la industria, la atribución inexacta de métodos afectará directamente el juicio de profesionales e investigadores sobre la ruta técnica, lo que llevará a una asignación errónea de recursos.

NBD: ¿Ustedes consideran que esto pertenece a una disconformidad académica?

Long Cheng: Esto ya supera la categoría de discrepancia académica. Las discrepancias académicas normalmente ocurren cuando ambas partes tienen diferencias reales de comprensión sobre el contenido técnico.

Pero en este caso, el equipo de TurboQuant tiene un registro completo de su conocimiento sobre los detalles técnicos de RaBitQ; nosotros, en mayo de 2025, aclaramos por correo, punto por punto, la optimalidad de las garantías teóricas. Majid Daliri indicó explícitamente que había informado a todos los autores; además, el desequilibrio en las condiciones experimentales también fue admitido por el propio autor en el correo.

En las circunstancias anteriores, los errores relevantes no se corrigieron en todo el proceso que incluyó envío del paper, revisión por pares, aceptación, publicación y promoción a gran escala. No tendemos a emitir juicios con ligereza, pero creemos que esta serie de acciones cuenta con una base fáctica suficiente para que la comunidad académica y las instituciones pertinentes juzguen de forma independiente.

Imagen: cuenta de redes sociales de Gao Jianyang

NBD: Para instituciones de investigación grandes como Google Research, ¿dónde están sus responsabilidades?

Long Cheng: El respaldo de las grandes instituciones por sí mismo genera un efecto de amplificación. Una investigación difundida a través de los canales oficiales de Google no puede compararse, en velocidad de difusión y alcance, con los artículos académicos comunes.

En una escala así, una vez que el relato erróneo del paper se propaga, el costo de corregirlo aumentará muchas veces. Pienso que las grandes instituciones tienen la responsabilidad, antes de promocionar masivamente hacia el exterior la publicación del paper, de asegurar que las descripciones relacionadas con el trabajo de otras personas pasen por una verificación básica de los hechos, en lugar de trasladar completamente esa responsabilidad a la evaluación de pares.

Al mismo tiempo, cuando investigadores externos plantean objeciones verificables con base en evidencias, las grandes instituciones también deben contar con un mecanismo interno formal para gestionarlo, en lugar de mantenerse en silencio. Esto es una responsabilidad frente a la comunidad académica y, a la vez, una protección de su propia credibilidad.

NBD: ¿Van a tomar más acciones a continuación?

Long Cheng: A continuación, planeamos publicar un informe técnico detallado en arXiv, organizando de manera sistemática la relación metodológica entre RaBitQ y TurboQuant, y expondremos por separado, a nivel técnico, los tres problemas uno por uno, para referencia de la comunidad académica.

También estamos considerando informar a las instituciones pertinentes a través de canales adicionales, como el Google Research Escalation Council (Consejo de apelación del Google Research). Nuestro objetivo siempre ha sido que el registro académico público refleje con precisión la relación real entre los distintos métodos, y no que se fabrique una confrontación.

Noticias masivas, interpretación precisa, todo en la app de Sina Finance

Responsable: Chang Fuqiang

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado