De GPU a LPU: Nvidia lanza una ofensiva masiva en chips de inferencia, Jensen Huang da un paso clave más

robot
Generación de resúmenes en curso

华夏时报记者 石飞月 北京报道

El rumbo de la industria de la IA ha cambiado. En los últimos años, todos se empeñaban desesperadamente en “entrenar modelos”: alimentar datos a las GPU y esperar a que crearan inteligencia. En ese entonces, las GPU de NVIDIA eran el único rey y nadie podía moverlo, pero en estos dos años los agentes inteligentes han inundado el mercado en manadas: Manus se hizo viral, OpenClaw se volvió tema constante, los proveedores de modelos y los proveedores de servicios en la nube empezaron a ganar dinero vendiendo tokens. Cerebras, enarbolando las banderas de “más rápido, más barato”, ha abierto brechas en el mapa que NVIDIA ha ocupado durante años.

La industria finalmente se dio cuenta de esto: el entrenamiento sigue, pero la “inferencia” ya se ha convertido en la corriente principal. NVIDIA, por supuesto, no dejaría pasar esta oportunidad de mercado. En el pastel de la inferencia, también quiere cortarse un trozo. A la madrugada del 17 de marzo, en el GTC 2026, el CEO de NVIDIA, Huang Renxun, mostró una nueva arma: Groq 3 LPU, lanzando una gran ofensiva hacia el mercado de chips de inferencia. Al mismo tiempo, arrojó un conjunto de cifras: para finales de 2027, los ingresos anuales de las dos líneas de productos, Blackwell y Rubin, alcanzarán 1 billón de dólares, el doble que la previsión de hace medio año.

Entrenamiento e inferencia, ambas a la vez

Esta vez, NVIDIA lanzó oficialmente la plataforma Vera Rubin, que incorpora 7 chips en total: Rubin GPU, Vera CPU, ConnectX-9 SuperNIC, BlueField-4 DPU, NVLink 6 Switch, Spectrum-X 102.4T CPO y la nueva Groq 3 LPU integrada.

“La “LPU” es una sigla de “Language Processing Unit”, es decir, unidad de procesamiento de lenguaje. Es un chip acelerador de inferencia de IA especializado. Rubin GPU, junto con Groq LPU, llevará el rendimiento de alrededor de 100 tokens por segundo que existe hoy, a 1500 tokens por segundo o incluso más, respaldando así de manera perfecta los escenarios de interacción de agentes de IA.

NVIDIA también presentó un chasis completo dedicado a alojar los nuevos aceleradores Groq: Groq LPX. Según Ian Buck, vicepresidente de NVIDIA a gran escala y de cómputo de alto rendimiento, Groq LPX mejorará el rendimiento de decodificación de “cada capa del modelo de IA por token” y permitirá que Rubin atienda el siguiente campo de vanguardia para la inteligencia artificial: sistemas multiagente. Estos sistemas requieren desempeño interactivo mientras manejan modelos con inferencia de billones de parámetros, ofreciendo rendimiento en ventanas de contexto de millones de tokens.

La ambición de NVIDIA por el mercado de chips de inferencia no empezó hoy, sino que ya estaba preparada desde antes. En diciembre de 2025, la empresa compró los activos principales de tecnología de Groq por alrededor de 20 mil millones de dólares. Su fundador se incorporó a NVIDIA. Groq 3 LPU es el primer resultado público después de la adquisición.

Con base en el modelo de predicción del área de investigación de inversiones globales de Goldman Sachs, en los chips de IA de los servidores de IA la proporción de envíos de chips que no son GPGPU mostrará una tendencia clara al alza. Se espera que aumente gradualmente del 36% en 2024 al 45% en 2027. En cambio, la proporción de envíos de chips GPGPU se prevé que baje gradualmente del 64% en 2024 al 55% en 2027.

Qin Fengwei, analista senior de InSemi Research, le explicó a este reportero que las GPU son más competitivas en el entrenamiento de modelos de base con mayores exigencias de versatilidad (como la nube pública) y en escenarios de computación paralela. Por su parte, los ASIC (incluyendo TPU, DPU, NPU, LPU, etc.) tienen ventajas relativas durante la fase de despliegue de modelos y en escenarios de inferencia, porque en estos escenarios se exigen requisitos más altos en cuanto a eficiencia energética, latencia de respuesta y otros aspectos.

“Por eso, cuando NVIDIA lanza LPU, es una disposición estratégica para responder a la demanda de cómputo de IA que se desplaza de ‘entrenamiento’ a ‘inferencia’; es un paso clave para cubrir deficiencias. Mediante una disposición de producto más detallada, responde a los cambios del mercado y a los desafíos de los competidores.”, dijo Zhang Xiaorong, director del Instituto de Investigación de Tecnología Profunda, a este reportero.

Según informes de los medios, el plan de NVIDIA para afrontar la creciente demanda de inferencia ya le ha reportado beneficios. El mes pasado, OpenAI señaló que había llegado a un acuerdo con NVIDIA para comprar chips con “capacidad de inferencia dedicada”.

Actualización de ecosistema: de los chips a la fábrica

En los últimos años, la IA generativa desató el mercado. El entrenamiento de modelos grandes se convirtió en un pozo absoluto de capacidad de cómputo. Con la dominancia absoluta de las GPU, NVIDIA se llevó la mayor parte de los beneficios de esta ola; su desempeño y su valor de mercado se dispararon simultáneamente, ganando hasta hartarse.

Sin embargo, con la entrada de la competencia por parámetros en una etapa de rendimientos marginales decrecientes, el entrenamiento de modelos grandes, después de correr desbocado durante dos años, finalmente se frenó. A partir de 2025, el eje de la competencia empezó a desviarse: los agentes inteligentes y la ingeniería de contexto subieron al centro del escenario. La señal más directa fue: OpenClaw tomó plataformas sociales, rompiendo el cerco desde el círculo tecnológico hasta llegar al flujo de información de la gente común.

Los agentes inteligentes son uno de los factores clave que impulsan el crecimiento de la demanda en el mercado de inferencia. Su escenario principal se inclina más hacia la inferencia que hacia el entrenamiento. Esta perspectiva cuenta con un respaldo claro en múltiples estudios autorizados y análisis de la industria. Por lo tanto, cuando las capacidades de IA evolucionaron desde la fase de entrenamiento de modelos base, hacia agentes que se enfocan en construir flujos de trabajo, el centro de gravedad de la demanda de capacidad de cómputo de IA se desplazó del entrenamiento hacia la inferencia.

Y como el jugador número uno en infraestructura de IA, NVIDIA naturalmente también debe adaptarse a las tendencias del mercado, y no solo a nivel de producto, sino con una actualización a nivel de todo el ecosistema.

En esta conferencia GTC, además de presentar la LPU, NVIDIA también se unió con equipos encabezados por Peter Steinberger, fundador de OpenClaw, y convocó a un grupo de expertos de primer nivel en seguridad y computación, lanzando la arquitectura de referencia NeMoClaw. Esta lleva incorporada la tecnología OpenShell, mecanismos de protección de red y capacidades de ruteo de privacidad, permitiendo que las empresas ejecuten sistemas de agentes de manera segura dentro de su propio entorno privado.

NVIDIA incluso lanzó un diseño de referencia de la fábrica de IA Vera Rubin DSX, enseñando cómo diseñar, construir y operar toda la pila de infraestructura de la fábrica de IA, abarcando cómputo, la red Ethernet NVIDIA Spectrum-X y almacenamiento, para lograr un desempeño de clúster repetible, escalable y óptimo.

Huang Renxun dijo: “En la era de la IA, los tokens inteligentes son la nueva moneda, y la fábrica de IA es la infraestructura base para generar esos tokens. A través del diseño de referencia Vera Rubin DSX AI Factory y el Omniverse DSX Blueprint (blueprint de gemelo digital), estamos proporcionando la base para construir las fábricas de IA con mayor productividad del mundo, acelerando el tiempo hasta el primer ingreso y maximizando la escala y la eficiencia energética”.

En cuanto a cómo cambiaría la proporción de la GPU insignia de NVIDIA tras lanzar la LPU, el reportero de 《华夏时报》 le preguntó a la empresa; al momento de redactar, no se había recibido respuesta. “El hecho de que NVIDIA entre en el mercado de chips de inferencia no significa que el negocio de las GPU vaya a verse afectado; al contrario, gracias a la sinergia con la LPU, se abrirá un espacio de mercado más amplio.”, dijo Zhang Xiaorong.

El experto de contratación especial de la Academia de Estrategia ZhiCan, Yuan Bo, señaló que, a corto plazo, las GPU dominan el mercado gracias a su fuerte adaptabilidad a escenarios y barreras de ecosistema, especialmente en escenarios de entrenamiento de IA. A largo plazo, sin embargo, ambas rutas no son completamente antagónicas, sino que avanzarán hacia la integración y una segmentación del mercado. “En hardware, las GPU integrarán núcleos especializados más potentes, y los chips dedicados también incrementarán la programabilidad. En el mercado, se espera que se forme un patrón escalonado: la innovación dominante y las plataformas generales, por un lado; y los chips dedicados que se enfocan en el escalado de la inferencia, por el otro.”

En el mercado de ASIC, de hecho ya se han reunido varios competidores de NVIDIA, incluidos Cerebras en el extranjero, Cambrío (中国的寒武纪), Huawei y empresas como Turing Technologies (燧原科技), etc. Zhang Xiaorong considera que el ingreso de NVIDIA al ámbito de chips de inferencia es tanto un desafío como un catalizador para los fabricantes nacionales. Esto generará una situación compleja en la que coexistirán “presión” e “imposición”. Esto acelerará la reestructuración de la industria y la actualización tecnológica.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado