¿La nueva tecnología TurboQuant de Google significa que la fiesta terminó para Micron?

Hace poco más de un año, un fondo chino de cobertura cuantitativa convertido en laboratorio de IA lanzó un modelo avanzado de IA llamado DeepSeek. Aunque existe cierto debate sobre lo barato que fue entrenar DeepSeek y en qué chips se entrenó exactamente, no hay duda de que DeepSeek implementó innovaciones novedosas que impulsaron enormemente la eficiencia del entrenamiento de un modelo de IA con menos y “menos buenos” semiconductores.

Las acciones de semiconductores y memoria para IA se desplomaron con fuerza por la noticia, en base a la impresión superficial de que las empresas de IA no necesitarían comprar tantos chips de lógica y memoria. Sin embargo, ahora todos sabemos que estas acciones se recuperaron después, y más aún, ya que una mayor eficiencia del modelo no frenó la demanda de chips. Más bien, las empresas de IA utilizaron las ganancias de eficiencia para invertir en modelos aún más avanzados, incrementando la demanda total de capacidad de cómputo y memoria.

La semana pasada, Alphabet’s (GOOG +5.02%) (GOOGL +5.10%) Google Research lanzó TurboQuant, una tecnología de compresión de memoria para IA basada en software que permite una inferencia mucho más eficiente con menos memoria. En respuesta, importantes empresas de memoria como Micron (MU +4.80%) y sus proveedores se desplomaron con fuerza.

Pero, ¿esto es solo otro momento DeepSeek que los inversores deberían comprar?

Expand

NASDAQ: MU

Micron Technology

Cambio de hoy

(4.80%) $15.46

Precio actual

$337.26

Datos clave

Valor de mercado

$381B

Rango del día

$311.50 - $337.70

Rango 52 semanas

$61.54 - $471.34

Volumen

3.1M

Prom. volumen

40M

Margen bruto

58.54%

Rendimiento por dividendo

0.18%

¿Qué es TurboQuant?

TurboQuant aumenta significativamente la capacidad y acelera la caché de clave-valor (KV cache) en la inferencia de IA. La caché KV es un tipo de memoria que permite a un algoritmo de IA conservar el contexto previo sin recalcular todos los tokens anteriores para generar los nuevos. Por tanto, la caché KV es, en cierto sentido, una especie de “historia” de la salida anterior de la IA.

Pero si la caché KV es la “historia” del contexto pasado, TurboQuant es un “resumen” rápido pero preciso de esa historia.

En términos para profanos, TurboQuant funciona así. Un modelo de IA entiende el contexto almacenando datos como vectores, o gráficos multidimensionales con varias “incrustaciones” (embeddings), o puntos dentro de un eje X-Y-Z. Un token con un vector similar al de otro significa que tiene una relación similar.

Para simplificar, supongamos un plano X-Y. Así, una incrustación podría delinearse mediante la dirección “ve tres espacios al este y cuatro espacios al norte”.

TurboQuant simplifica estos comandos diciendo: “ve cinco espacios a 37 grados hacia el noreste”. Esto reduce enormemente los cálculos necesarios para comprender el contexto, aunque puede dar lugar a errores residuales. Pero entonces TurboQuant superpone un mecanismo de corrección de errores de 1-bit que lo limpia. Incluso con el bit adicional, esta técnica utiliza mucha menos memoria que el método estándar de coordenadas XYZ para vectores de IA.

Como resultado de la corrección de errores, Google Research afirma que TurboQuant puede aumentar la capacidad de la caché KV en seis veces, y al mismo tiempo hacer que la inferencia de IA sea ocho veces más rápida, todo ello sin pérdida de precisión.

TurboQuant acelera la inferencia de IA. Fuente de la imagen: Getty Images.

Cómo afectará TurboQuant a la memoria de IA

Si la inferencia de IA puede usar seis veces menos DRAM y ejecutarse ocho veces más rápido, la idea es que podría haber menos demanda de memoria en futuras aplicaciones de inferencia.

Esto parece un poco simplista, aunque existe un caso a la baja plausible. Un riesgo es que la cuota de mercado de la inferencia de IA pueda cambiar de GPU caras con memoria de alto ancho de banda (HBM) a CPUs que ejecutan memoria de servidor “tradicional”, como DDR5 o MRDIMM.

La HBM es mucho más rápida que estos tipos de memoria más antiguos, pero puede almacenar menos contexto y es mucho más costosa. Debido al aumento de velocidad de ocho veces en la caché KV de TurboQuant, una empresa que ahora quiera utilizar muchos agentes de IA infiriendo sobre una gran cantidad de datos, como un documento legal de 1.000 páginas, puede tal vez desplegar DDR5 o MR-DIMM de forma más efectiva. Aunque la HBM también se beneficiará de TurboQuant, las formas más antiguas de memoria utilizadas por CPUs podrían ser “suficientemente rápidas” para grandes empresas que busquen reducir costos.

La HBM ha sido uno de los principales factores de la escasez de suministro de memoria actual, ya que producir un bit de HBM requiere entre tres y cuatro veces el equipo necesario frente a la “memoria tradicional”. Por lo tanto, es posible que, si la demanda se desplaza hacia una memoria más tradicional para la inferencia, el mercado de la memoria no esté tan limitado por el lado de la oferta.

Pero la historia alcista es más probable

Aunque TurboQuant plantea un riesgo potencial para el mercado de HBM, que ha estado absorbiendo la mayor parte del suministro de la industria, este inversor aún cree que es más probable un escenario alcista.

En primer lugar, la HBM también verá mejoras gracias a TurboQuant, al permitir que la inferencia basada en HBM tenga ventanas de contexto más grandes. Así que la inferencia de IA no se desplazará por completo hacia CPUs o memoria tradicional. Para aplicaciones que exigen latencia extremadamente rápida, la HBM aún probablemente se desplegará hasta cierto punto.

Además, la HBM sigue siendo el tipo principal de memoria para el entrenamiento de modelos de IA, y TurboQuant no afecta eso. Si bien la inferencia será el mercado más grande en el futuro, la demanda de HBM para entrenamiento probablemente seguirá aumentando. Dado que actualmente estamos muy escasos en HBM, y que TurboQuant ni siquiera se ha implementado fuera del laboratorio de Google todavía, las empresas de memoria tendrán tiempo para ajustar su crecimiento de oferta en consecuencia.

Pero es posible que ni siquiera se necesiten ajustes de oferta, ya que el paradoja de Jevons podría mantenerse para TurboQuant igual que se mantuvo para DeepSeek. La paradoja de Jevons establece que cuando un proceso se vuelve más eficiente, en lugar de usar menos de sus insumos, la demanda de esos recursos en realidad aumenta, porque una mayor eficiencia desbloquea la adopción y más casos de uso.

Dado que la mayoría de las principales empresas tecnológicas cree que todavía estamos al principio de la era de la IA, si TurboQuant acelera la tasa con la que las empresas y los consumidores incorporan la IA en sus negocios, esa marea creciente de demanda debería levantar a todos los barcos.

En resumen, este desplome de las acciones de memoria podría ser una oportunidad. Aunque Micron y las acciones relacionadas de equipos de capital de semiconductores siguen muy por encima en el último año, este “susto” podría ser una oportunidad para añadir o comprar una participación inicial, si te perdiste la subida del año pasado.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado