«Nueva generación de IA» de GPU a LPU: NVIDIA lanza una ofensiva masiva en chips de inferencia, Jensen Huang da un paso clave más

robot
Generación de resúmenes en curso

“AI新世代”从GPU到LPU:英伟达大举进攻推理芯片市场,黄仁勋再落关键一子

3月17日凌晨,在GTC 2026上,英伟达CEO黄仁勋展示了新武器——Groq 3 LPU,向推理芯片市场大举进攻。

El rumbo de la industria de la IA ha cambiado. En los años anteriores, todos competían desesperadamente por “entrenar modelos”: alimentar los datos a los GPU, esperar a que desarrollaran inteligencia. En aquel entonces, los GPU de NVIDIA eran el único rey; nadie podía moverlos. Pero en estos dos años, los agentes inteligentes han irrumpido en masa en el mercado: Manus se puso en boca de todos, OpenClaw dominó las pantallas; los fabricantes de modelos y los proveedores de servicios en la nube empezaron a ganar dinero vendiendo tokens. Cerebras alzaba banderas de “más rápido, más barato” y empezó a abrir brechas en el territorio que durante años NVIDIA había ocupado.

La industria finalmente lo entendió: el entrenamiento sigue, pero la “inferencia” ya se ha convertido en la corriente principal. NVIDIA, naturalmente, no iba a perder esta oportunidad de mercado; sobre el pastel de la inferencia, también quiere llevarse un trozo. El 17 de marzo a madrugada, en GTC 2026, el CEO de NVIDIA, Huang Renxun, sacó a relucir su nuevo arma—Groq 3 LPU—para atacar con fuerza el mercado de chips de inferencia. Al mismo tiempo, arrojó una serie de cifras: para finales de 2027, los ingresos anuales de las dos líneas de productos, Blackwell y Rubin, alcanzarán 1 billón de dólares, duplicando la previsión de hace medio año.

Atender con ambas manos: entrenamiento e inferencia

En esta ocasión, NVIDIA presentó oficialmente la plataforma Vera Rubin, que integra 7 chips, a saber: Rubin GPU, Vera CPU, ConnectX-9 SuperNIC, BlueField-4 DPU, NVLink 6 Switch, Spectrum-X 102.4T CPO, y además el nuevo Groq 3 LPU integrado.

El “LPU” es la sigla de “Language Processing Unit”, es decir, unidad de procesamiento del lenguaje. Es un chip acelerador de inferencia de IA especializado. Al combinar Rubin GPU con Groq LPU, se llevará el rendimiento de procesamiento actual de 100 tokens por segundo hasta 1500 tokens por segundo o incluso más, apoyando de forma perfecta los escenarios de interacción de agentes de IA.

NVIDIA también lanzó un bastidor completo, dedicado a alojar el nuevo acelerador de Groq—Groq LPX. Según explicó Ian Buck, vicepresidente de NVIDIA a gran escala y computación de alto rendimiento, Groq LPX mejorará el rendimiento de decodificación de “cada capa del modelo de IA por token” y permitirá que Rubin dé servicio al próximo campo de frontera de la inteligencia artificial: los sistemas multiagente. Estos sistemas necesitan, al mismo tiempo, ofrecer un rendimiento interactivo en ventanas de contexto de millones de tokens para modelos con inferencia de billones de parámetros.

La codicia de NVIDIA por el mercado de chips de inferencia no empezó hoy: ya estaba preparada desde antes. En diciembre de 2025, la empresa adquirió los activos centrales de la tecnología de Groq por un precio de aproximadamente 20 mil millones de dólares; su fundador se incorporó a NVIDIA, y Groq 3 LPU fue el primer resultado público después de la adquisición.

Con base en las previsiones del modelo del departamento de investigación de inversiones globales de Goldman Sachs, en los chips de IA de servidores de IA, la proporción de envíos de chips no GPGPU mostrará una tendencia al alza clara: se espera que aumente gradualmente del 36% de 2024 al 45% de 2027. Mientras tanto, se prevé que la proporción de envíos de chips GPGPU baje gradualmente del 64% de 2024 al 55% de 2027.

Qin Fengwei, analista senior de InSemi Research, le explicó a este reportero que los GPU serán más competitivos en escenarios que exigen mayores requisitos de entrenamiento de modelos base y de generalidad (como nubes públicas) y en escenarios de computación paralela. En cambio, los ASIC (incluidos TPU, DPU, NPU, LPU, etc.) son relativamente más ventajosos en la fase de despliegue del modelo y en escenarios de inferencia, porque en esos casos se exigen mayores niveles de eficiencia energética, latencia de respuesta, etc.

“Por eso, cuando NVIDIA lanza LPU, es un despliegue estratégico para hacer frente a la demanda de cómputo de IA que pasa de ‘entrenamiento’ a ‘inferencia’: es un paso clave para compensar una carencia. Con una disposición de productos más fina y detallada, responde a los cambios del mercado y a los retos planteados por los competidores.” dijo a este reportero Zhang Xiaorong, director del Instituto de Investigación de Tecnología Profunda.

Según medios de comunicación, el plan de NVIDIA para afrontar la demanda creciente de inferencia ya le ha dado resultados; el mes pasado OpenAI afirmó que ha llegado a un acuerdo con NVIDIA para comprar chips con “capacidad de inferencia dedicada”.

Una actualización de ecosistema: de chips a fábricas

En los últimos años, la IA generativa detonó el mercado y el entrenamiento de modelos de gran tamaño se convirtió en el pozo negro absoluto de capacidad de cómputo. Impulsada por el dominio absoluto de los GPU, NVIDIA se embolsó la mayor parte de los beneficios de esa ola; sus resultados y su valor de mercado se dispararon por partida doble, ganando a manos llenas.

Sin embargo, con la llegada del período de rendimientos marginales decrecientes en la competencia de parámetros de los modelos, el entrenamiento de modelos grandes se frenó después de correr frenéticamente durante dos años. A partir de 2025, el eje de la competencia comenzó a desplazarse: los agentes inteligentes y la ingeniería de contexto ocuparon el centro del escenario. La señal más directa es esta: OpenClaw se apoderó de plataformas sociales; primero rompió el cerco en el círculo tecnológico y luego se metió en el flujo de información de las personas comunes.

Los agentes inteligentes son un factor clave para impulsar el crecimiento de la demanda del mercado de inferencia. Su escenario central se centra más en la inferencia que en el entrenamiento. Esta visión está respaldada de forma clara por múltiples investigaciones autorizadas y análisis de la industria. Por lo tanto, cuando las capacidades de IA evolucionan desde la fase de entrenamiento de modelos base hacia agentes que se enfocan en construir flujos de trabajo, el peso de la demanda de cómputo de IA ha pasado de entrenamiento a inferencia.

Y como principal jugador de la infraestructura base de IA, NVIDIA también debe adaptarse a la tendencia del mercado, y además realizar una actualización a nivel de todo el ecosistema.

En esta conferencia GTC, además de lanzar LPU, NVIDIA también convocó a un grupo de expertos líderes en seguridad y cómputo, junto con un equipo liderado por el fundador de OpenClaw, Peter Steinberger, para presentar la arquitectura de referencia NeMoClaw. Esta incorpora la tecnología OpenShell, mecanismos de protección de red y capacidades de enrutamiento de privacidad, lo que permite que las empresas ejecuten con seguridad sistemas de agentes en sus propios entornos privados.

NVIDIA incluso presentó el diseño de referencia de una “fábrica” de IA Vera Rubin DSX, enseñando cómo diseñar, construir y operar toda la pila de infraestructura de una fábrica de IA. Cubre cómputo, red NVIDIA Spectrum-XEthernet y almacenamiento, para lograr un rendimiento de clúster repetible, escalable y óptimo.

Huang Renxun señaló: “En la era de la IA, los tokens inteligentes son la nueva moneda, y la fábrica de IA es la infraestructura fundamental para generar esos tokens. A través del diseño de referencia de Vera Rubin DSX AI Factory y del Omniverse DSX Blueprint (blueprint de gemelo digital), estamos ofreciendo la base para construir fábricas de IA con la mayor productividad del mundo, acelerando el tiempo hasta los ingresos iniciales y maximizando la escala y la eficiencia energética”.

En cuanto a cómo cambiará la proporción de los GPU insignia de NVIDIA después del lanzamiento de LPU, el reportero de 《华夏时报》 entrevistó a la parte de NVIDIA sobre el tema, y hasta la fecha de publicación de este artículo no se había recibido respuesta. “El avance de NVIDIA hacia el mercado de chips de inferencia no significa que el negocio de GPU vaya a verse perjudicado. Al contrario, en la sinergia con LPU, se abrirá un espacio de mercado más amplio.” dijo Zhang Xiaorong.

El experto de la Junta de la Academia de Inteligencia y Participación, Yuan Bo, señaló que, a corto plazo, los GPU, gracias a su fuerte adaptabilidad a escenarios y a sus barreras de ecosistema, dominarán el mercado, especialmente en escenarios de entrenamiento de IA. A largo plazo, sin embargo, dos rutas no son completamente opuestas, sino que se dirigirán hacia la fusión y la segmentación del mercado. “En el hardware, los GPU integrarán núcleos dedicados más potentes, y los chips dedicados también aumentarán su programabilidad. En el mercado, se espera que se forme un patrón segmentado: innovación dominante y plataformas generales en un lado, y chips dedicados profundizando en la inferencia a escala en el otro”.

En el mercado de ASIC, en realidad ya se han reunido varios rivales de NVIDIA, incluyendo Cerebras en el extranjero y en China, companies como Cambrian, Huawei, y Biren Technology (燧原科技), etc. Zhang Xiaorong considera que el ingreso de NVIDIA al campo de chips de inferencia, para los fabricantes nacionales, es tanto un desafío como un catalizador; generará un escenario complejo en el que coexistan “presión” y “arranque forzado”, lo que acelerará el reordenamiento de la industria y la actualización tecnológica.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado