Ren Hrenxun declara que ha llegado la era de la inferencia, ¿qué nuevas variables traerá LPU?

El 16 de marzo, hora local, el CEO de NVIDIA, Huang Renxun, presentó en la conferencia GTC una nueva plataforma de cómputo para la IA de agentes: NVIDIA Vera Rubin.

Esta plataforma funciona como un “equipo de cómputo” súper potente, y reúne múltiples componentes centrales, incluidos Vera CPU (unidad central de procesamiento), Rubin GPU (unidad de procesamiento gráfico), el conmutador NVLink 6, ConnectX-9 SuperNIC (tarjeta de red “super”), BlueField-4 DPU (unidad de procesamiento de datos), además de Spectrum-6 (conmutador Ethernet), y también la nueva Groq 3 LPU (unidad de procesamiento de lenguaje).

En pocas palabras, se trata de un conjunto de hardware completo diseñado específicamente para la IA, que hace que el cómputo sea más rápido y más inteligente.

Dentro de ellos, NVIDIA también lanzó un rack Groq 3 LPX diseñado específicamente para despliegues a gran escala. Esto significa que puede combinar cientos de LPU para trabajar de forma coordinada, como un “cerebro súper”, logrando una velocidad de inferencia muy alta y una gran capacidad de procesamiento de textos a gran escala. Este rack incorpora 256 LPU y viene con 128GB de almacenamiento en el chip de alta velocidad, con una velocidad de transferencia de hasta 640 TB/s.

Según profesionales de la industria, el punto culminante de este lanzamiento no solo está en la actualización de los chips, sino en el salto en la densidad de integración del sistema. Zhuang Changlei, del grupo de IA/fabricación inteligente de Cloud岑 capital, al declarar a un reportero de 21st Century Economic Report, dijo: “El mayor cambio es que NVIDIA ha elevado la LPU, de un chip único o una tarjeta aceleradora, a un sistema de rack de primer nivel que está en paralelo con la GPU”.

En particular, la cantidad de LPU del rack LPX pasó de 64 unidades de la primera generación a 256 unidades; este salto de densidad supera con creces las expectativas de la industria y también refleja la urgente demanda del mercado de inferencia de texto largo con latencia ultrabaja.

Zhuang Changlei considera que esto marca que el cómputo de IA está pasando de “centrarse en el entrenamiento” a “entrenamiento y la inferencia con la misma importancia”, y que la inferencia se está convirtiendo en una nueva infraestructura a nivel de sistema.

En esencia, para la inferencia

La LPU es una nueva arquitectura de chip diseñada para tareas intensivas en cómputo orientadas al procesamiento secuencial; su objetivo central es optimizar la eficiencia de inferencia de los modelos de lenguaje mediante la innovación arquitectónica.

En cuanto a la arquitectura, una sola Groq 3 LPU integra 500 MB de SRAM: uno de los elementos centrales de la LPU es el bloque MEM, que es una arquitectura de memoria plana y con prioridad a SRAM. Esos 500 MB de SRAM de alta velocidad dentro del chip funcionan como el almacenamiento principal de trabajo para la inferencia.

(Fuente de la imagen: sitio web oficial de NVIDIA)

El compilador y el runtime colocan el conjunto de trabajo activo (incluidos pesos, activaciones y el estado KV) en la memoria del chip y mueven los datos de forma explícita, en lugar de depender de la caché gestionada por hardware. Esto reduce la latencia impredecible y, al colocar los datos más sensibles a la latencia cerca del lugar donde se realiza el cómputo, ayuda a proporcionar una latencia baja y estable.

Zhuang Changlei le dijo a un reportero que la ventaja central de las Groq LPU no es solo “que sean rápidas”, sino que sean “igual de rápidas cada vez”, es decir, una latencia determinista. Este diseño de arquitectura con determinismo temporal (Timing Deterministic) requiere una personalización profunda de las tuberías de cómputo, el acceso a la memoria y el compilador, con un umbral técnico extremadamente alto.

Para escenarios como el control industrial y la conducción autónoma, que exigen requisitos estrictos de tiempo real, este “determinismo” es una necesidad ineludible. En cambio, las arquitecturas de GPU de propósito general y las ASIC de proveedores en la nube, diseñadas con conjuntos de instrucciones simplificados, son difíciles de lograr este nivel extremo de determinismo sin comprometer la flexibilidad.

El análisis de Huatai Securities señala que, en comparación con el CES de enero, en esta conferencia GTC la posición de las Groq LPU dentro de la línea general de productos de NVIDIA ha empezado a quedar más clara. NVIDIA planea aprovechar las características de baja latencia de las LPU para satisfacer aplicaciones con requisitos elevados de interactividad, como Agent AI.

Zhuang Changlei también señaló que, cuando se rompa el cuello de botella de la latencia del hardware, los diseñadores de modelos tendrán más confianza para explorar una IA más en tiempo real y más compleja con interacciones más ricas. Por ejemplo, actualmente los AI Agent quizá todavía necesiten unos segundos de tiempo de “pensamiento”, pero en el futuro podrían lograr verdaderas reacciones a nivel de milisegundos. Los modelos dejarán de ser “solo palabras sueltas” y conversarán contigo de manera fluida y en tiempo real, como lo haría una persona real.

Comienza la era de la fotónica de silicio

Además del rack NVIDIA Groq 3 LPX, otra gran novedad de la plataforma Rubin es el rack Ethernet NVIDIA Spectrum-6 SPX.

Con la tecnología de silicio-fotónica Ethernet Spectrum-X mediante un encapsulado optoeléctrico integrado (CPO), en comparación con los transceptores tradicionales intercambiables, la eficiencia óptica puede aumentar hasta 5 veces y la confiabilidad del sistema hasta 10 veces.

“Scale-Out (interconexión entre armarios) es el incremento más claro en este momento”. Zhuang Changlei indicó que la plataforma Rubin ya ha empezado a incorporar conmutadores CPO para resolver el problema de las grandes corrientes de transmisión de datos entre numerosos armarios dentro de los centros de datos, y se espera que 2027 se convierta en un hito importante para la expansión masiva del CPO.

En la GTC, NVIDIA también reveló que, después de Vera Rubin, la siguiente arquitectura importante de NVIDIA es Feynman, y que esta arquitectura incluirá una nueva CPU: NVIDIA Rosa.

Dentro de ellas, Rosa es el núcleo de la nueva plataforma. Esta plataforma combina la nueva generación de LPU LP40 de NVIDIA con NVIDIA BlueField-5 y CX10, realiza la expansión vertical de cables de cobre hacia encapsulados optoeléctricos integrados mediante NVIDIA Kyber, y lleva a cabo la expansión óptica horizontal a nivel de NVIDIA Spectrum.

“Scale-Up (dentro del armario/entre chips) es el punto de vista más prometedor”. Zhuang Changlei señaló que, en la arquitectura Feynman, NVIDIA planea introducir NVLink 8 CPO para lograr “la luz entra al armario”, es decir, sustituir parte de las conexiones tradicionales de backplane de cobre por interconexiones ópticas, conectando directamente GPU con LPU. Esto significa que la interconexión óptica está pasando de los conmutadores más periféricos al interior del armario central del cómputo, de forma gradual.

A juicio de Zhuang Changlei, como “vasos sanguíneos” de la interconexión de potencia de cálculo, el valor de los módulos ópticos aumenta de forma continua a medida que se expande el tamaño de los clústeres de agentes. Con el CPO pasando de los laboratorios a la comercialización a escala, ya se ha iniciado la era de la fotónica de silicio, y esto impulsará directamente la actualización de toda la cadena industrial de hardware de comunicaciones.

Puede haber un repunte en la demanda de PCB de alto nivel

Como se mencionó antes, para hacer frente a las necesidades de los sistemas de agentes de baja latencia y de contextos largos, NVIDIA también lanzó el rack de aceleración de inferencia Groq 3 LPX, que incluye 256 procesadores LPU; al combinarlo con Vera Rubin, la capacidad de inferencia por megavatio puede aumentar 35 veces.

Y el envío de LPU/LPX en forma de rack tendrá un impacto disruptivo en la industria de PCB, y podría ser el eslabón más allá de lo esperado en toda la cadena industrial.

PCB, es decir, placa de circuito impreso, es el soporte en el que se interconectan eléctricamente los componentes electrónicos, y ya se ha infiltrado en prácticamente todos los equipos electrónicos. La industria china de PCB, como motor central de la fabricación electrónica global, está creciendo con fuerza.

Gracias a ventajas como la gestión de costos, los estándares de protección del medio ambiente y la adecuación de la cadena industrial, actualmente el valor de producción de la industria de PCB en el continente de China representa más del 50% a nivel mundial, y se han formado clústeres industriales como el Golfo de Bohai, el delta del río Perla y el delta del río Yangtsé.

Observando el panorama de upstream y downstream, con el aumento explosivo de la demanda de IA, el capital y las inversiones de los proveedores en la nube continúan ajustándose al alza, impulsando las compras de servidores de IA, equipos de almacenamiento y equipos de red. CICC (601066) estima que el espacio de mercado para servidores GPU+ASIC en 2025 supera los 40.000 millones, en 2026 supera los 90.000 millones, y la tasa de crecimiento ya se ha duplicado.

“Actualmente, la industria global de PCB para servidores de IA se encuentra en un estado de brecha de oferta y demanda del 20%”. Zhuang Changlei lo reconoció.

En opinión de Zhuang Changlei, a medida que los racks LPU/LPX entren en el pico de producción en masa a finales de 2026 y durante 2027, la demanda de PCB de alto nivel mostrará un repunte. “Esto agravará aún más la escasez de PCB de alto HDI y de gran número de capas, y empujará a toda la cadena industrial de PCB a entrar en una nueva ronda de expansión de capacidad y actualización”.

Por ejemplo, debido a que dentro de los racks LPU/LPX se necesita gestionar un flujo masivo de datos y comunicaciones con latencia extremadamente baja, los requisitos para el número de capas, los materiales y el proceso de los PCB son muy altos. Tomando como ejemplo los racks de LPU de NVIDIA: el valor de un PCB de una sola placa madre puede alcanzar 6000 dólares, mientras que el valor total de los PCB de un rack completo llega a 9,6 dólares (equivalente a casi 70.000 yuanes renminbi), lo que eleva el valor más de 10 veces en comparación con el de los PCB de servidores de IA tradicionales.

Además, para ajustarse a la transmisión de señales de alta velocidad de 224Gbps o superiores, y para soportar la interconexión de alta velocidad para 256 LPU, los PCB deben adoptar sustratos y diseños de un nivel superior. En cuanto a materiales, los sustratos comunes ya no pueden cumplir con la demanda: es necesario actualizar a laminados recubiertos de nivel M9, y la mejora del material también pasa de la tela electrónica de fibra de vidrio común a Q-glass, cuyo valor es 10 veces mayor. Incluso los productos de la próxima generación ya están comenzando a probar el material M10.

Zhuang Changlei afirma que, en la arquitectura Rubin Ultra, incluso se introduce una solución de backplane ortogonal, logrando la interconexión directa entre GPU y NVSwitch mediante PCB de 78 capas. Esto reduce de forma significativa el uso de cables de cobre, y marca que los PCB están sustituyendo el papel de parte de los cables tradicionales, convirtiéndose en la “estructura ósea” de la interconexión dentro del rack.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado