NVIDIA planea lanzar una "cápsula misteriosa" o una nueva arquitectura diseñada específicamente para inferencia

K-LinePoet · 2026-03-11T05:51:06+00:00

NVIDIA próximamente celebrará la conferencia GTC en California, donde se espera que lance un nuevo chip de inferencia, posiblemente integrando la tecnología Groq LPU, para satisfacer la creciente demanda de inferencia. A medida que el enfoque del cálculo de IA se desplaza hacia la inferencia, la demanda de chips especializados de alto rendimiento aumenta. En cuanto al diseño de chips, es probable que se utilice tecnología de SRAM apilada en 3D para mejorar el rendimiento, pero este nuevo método también enfrenta varios desafíos.

K-LinePoet

2026-03-11 05:51:06

Generación de resúmenes en curso

La conferencia GTC de NVIDIA que se celebrará a mediados de marzo en San José, California, es uno de los eventos más destacados en el campo de la IA. Anteriormente, Jensen Huang anunció que lanzaría un nuevo chip “sin precedentes en el mundo”.

Tras este anuncio, el mercado financiero ha generado mucha discusión. La evaluación más común es que el chip que se planea presentar en GTC probablemente sea un nuevo producto de inferencia que integre el diseño de Groq LPU (Unidad de Procesamiento de Lenguaje).

Según Zhuang Changlei, director del equipo de IA/Manufactura Inteligente de Yunxiu Capital, “si se trata de un plugin para GPU existentes, la transferencia de datos aún tendría que pasar por interfaces externas como PCIe o NVLink, lo que introduciría retrasos adicionales y reduciría las ventajas de baja latencia de SRAM.”

Él añadió: “Una opción más ideal sería crear una arquitectura de cálculo completamente nueva centrada en SRAM, similar a Cerebras, diseñada específicamente para inferencia.”

La era de la inferencia ha llegado

Con la explosión de aplicaciones de nueva generación representadas por “OpenClaw” (Pequeña Langosta), la demanda global de potencia de cálculo está cambiando notablemente, y el enfoque del mercado se está desplazando del entrenamiento a la inferencia.

Según la predicción de Deloitte para 2026 en tecnología, medios y telecomunicaciones, “la inferencia” (ejecución de modelos de IA) representará dos tercios de toda la capacidad de cálculo de IA. Además, en el futuro aparecerán chips de optimización especializados en inferencia valorados en miles de millones de dólares, que se desplegarán en centros de datos y servidores empresariales, con algunos consumos de energía iguales o superiores a los de los chips de IA general.

Recientemente, se supo que, además de que se espera que NVIDIA revele detalles técnicos clave de Rubin y la próxima generación de GPU basada en la arquitectura Feynman en esta conferencia, también es muy probable que lance un nuevo chip de inferencia que integre tecnología LPU.

Este sistema de chip de inferencia completamente nuevo, que incorpora la tecnología LPU del equipo de Groq, podría ser la primera vez que NVIDIA introduce a gran escala una arquitectura externa en su línea de productos principales de capacidad de IA.

CITIC Securities señala que, tras el lanzamiento previo de Rubin CPX para reducir costos en prefill y la adquisición de Groq, esta vez podría lanzar un chip LPU o “tipo LPU” para mejorar la decodificación.

En la inferencia, el modelo generalmente pasa por dos fases: primero, en la fase de prellenado, se procesa la entrada del usuario; luego, en la fase de decodificación, se genera la salida token por token.

El impacto real en la experiencia del usuario en la inferencia depende de la velocidad y la latencia en la fase de decodificación. En arquitecturas de inferencia basadas en GPU, debido a que muchos parámetros del modelo se almacenan en HBM, la transferencia frecuente de datos entre el núcleo de cálculo y la HBM puede afectar la eficiencia en la fase de decodificación.

Por otro lado, la LPU de Groq está diseñada específicamente para acelerar la inferencia, usando unidades de almacenamiento SRAM más cercanas a los núcleos de cálculo para almacenar los parámetros del modelo. Por ejemplo, 230MB de SRAM en el chip pueden ofrecer un ancho de banda de memoria de hasta 80TB/s, mucho más rápido que las arquitecturas GPU.

Sin embargo, desde el punto de vista del diseño físico, reemplazar completamente la HBM por SRAM no es factible.

Zhuang explicó que, frente a modelos grandes con billones de parámetros, una solución puramente SRAM no puede soportar su capacidad. Entonces, ¿cómo innovará NVIDIA?

La respuesta probablemente no sea “sustituir”, sino “apilar”. Zhuang indicó: “Según información de la industria, NVIDIA podría usar una tecnología similar a AMD3D V-Cache, mediante la tecnología de unión híbrida SoIC de TSMC, para apilar directamente en 3D las unidades LPU (procesamiento de lenguaje) que contienen gran cantidad de SRAM, en el wafer del núcleo de GPU.”

La cadena de suministro podría cambiar

En cuanto a la solución de apilamiento 3D, ya hay empresas líderes como AMD que han avanzado en este campo. En 2021, AMD anunció la tecnología de caché vertical 3D (3D V-Cache), que permite apilar en vertical un caché SRAM adicional de 7nm en la parte superior de los chips Ryzen, aumentando significativamente la cantidad de caché L3. En julio de 2024, Fujitsu presentó su procesador MONAKA, que utiliza tecnología 3D SRAM y planea su lanzamiento en 2027.

¿Se convertirá esta solución en la norma?

“El SRAM en chip presenta problemas como la ralentización del proceso de fabricación debido a la escala lógica, lo que hace que ocupe más espacio y aumente los costos,” afirmó Dongfang Securities. “Por ello, algunos inversores consideran que la arquitectura SRAM no será la principal opción para la memoria de chips de IA.” Sin embargo, Zhuang sugirió que la solución de apilamiento 3D de SRAM puede mejorar la densidad mediante apilamiento vertical, superando las limitaciones de capacidad de SRAM tradicional. Si en la inferencia de IA se requiere mayor capacidad, la tecnología de apilamiento 3D podría ampliar sus aplicaciones.

CITIC Securities también opina que, en el futuro, tanto los GPU como los NPU podrían adoptar la tecnología de apilamiento 3D de SRAM para lograr un aumento en el ancho de banda de acceso a memoria, aprovechar las ventajas de LPU y mantener la compatibilidad con los ecosistemas de software existentes, conservando las ventajas originales de GPU y NPU.

Zhuang señaló que los chips de IA complejos podrían requerir ambas tecnologías: primero, apilar LPU y núcleos de GPU con SoIC, y luego encapsular este cubo apilado mediante CoWoS con HBM. Para chips de inferencia pura que no necesitan gran capacidad de HBM, se puede confiar completamente en SRAM apilado en 3D para construirlos, evitando CoWoS. Sin embargo, estos chips están dirigidos a mercados específicos y su volumen no puede desafiar la posición dominante de HBM + CoWoS.

El apilamiento de SRAM en 3D (como SoIC de TSMC) requiere un ensamblaje preciso de wafer a wafer en la fase de fabricación, una tecnología que está estrechamente vinculada a los procesos de fabricación avanzados. Esto trasladará aún más el valor desde el empaquetado posterior.

Por un lado, el valor de los procesos avanzados se amplifica. Zhuang explicó que, para obtener la máxima densidad de interconexión y eficiencia energética en apilamientos verticales, la capa inferior de los wafers de cálculo debe usar los procesos más avanzados (como A16), lo que aumenta la dependencia de tecnologías de vanguardia en la industria.

Por otro lado, si el valor de los chips de alta gama continúa concentrándose en la fabricación frontal y en el empaquetado avanzado, los fabricantes nacionales de empaquetado y prueba podrían enfrentarse al riesgo de ser desplazados del mercado de alta gama. Zhuang sugirió que esto también crea oportunidades para la competencia diferenciada, como ofrecer soluciones de apilamiento 3D maduras y rentables para chips que no requieren procesos de punta, o establecer nuevas barreras tecnológicas en pruebas, disipación de calor y análisis de fiabilidad en la etapa posterior del proceso de fabricación.

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.