Detrás del "chip misterioso" de Nvidia: la era de la inferencia inicia las "cuatro nuevas tendencias en poder de cómputo"

robot
Generación de resúmenes en curso

Nvidia integra la tecnología LPU (unidad de procesamiento de lenguaje) y el chip de inferencia de apuestas multilínea de OpenAI, y está cambiando el principal campo de batalla de la competencia en potencia computacional de IA de entrenamiento a inferencia. La investigación de Shenwan Hongyuan considera queLa palabra clave principal de la industria de la potencia informática en 2026 será el razonamiento, y el consumo total de tokens y el paradigma técnico se reconstruirán profundamente en torno a este tema.

El 28 de febrero, según el Wall Street Journal, Nvidia planea lanzar un nuevo chip de inferencia que integra la tecnología de "unidad de procesamiento de lenguaje" (LPU) de Groq en la conferencia de desarrolladores de GTC del próximo mes.El CEO de Nvidia, Jensen Huang, lo calificó como un sistema completamente nuevo que "el mundo nunca había visto antes."。 OpenAI ha aceptado convertirse en uno de los mayores clientes del procesador y comprará una "capacidad dedicada de inferencia" a gran escala a Nvidia.

Mientras tanto, OpenAI alcanzó el mes pasado una asociación informática multimillonaria con la startup Cerebras, que afirmó que sus chips de inferencia han superado a las GPUs (unidades de procesamiento gráfico) de Nvidia. Esta serie de tendencias muestra queLos gigantes de la IA están pasando de una carrera armamentística a un sistema multilínea de poder de cálculo de inferencia.

El informe de Shenwan Hongyuan señaló,En la era de la economía de los tokens, el poder de cálculo por inferencia está dando paso a cuatro grandes tendenciasPrimero, el número de escenarios de despliegue puramente de CPU (unidad central de procesamiento) ha aumentado, y la demanda de inferencia de bajo coste ha acelerado el agotamiento de la potencia de cálculo; segundo, el auge de arquitecturas dedicadas como las LPUs, desafiando el dominio de las GPUs en el proceso de inferencia; Tercero, los chips de potencia informática nacionales han acelerado avances y la tendencia a la diversificación de la cadena de suministro es evidente; En cuarto lugar, la estructura de demanda de la potencia de cálculo por inferencia ha cambiado de "entrenamiento único" a "consumo masivo de tokens", y el rendimiento en costes se ha convertido en un factor competitivo fundamental.

El informe decía,Los fabricantes que puedan proporcionar chips de inferencia suficientes y rentables serán los que más se benefician, y el avance conjunto de CPUs, LPUs y chips domésticos constituye las pistas clave de esta ronda de remodelación de patrones de potencia computacional.

La demanda de inferencia se ha disparado y el consumo de tokens ha alcanzado un récord
---------------------

La investigación de Shenwan Hongyuan considera queDetrás de la continua expansión de la demanda hay dos fuerzas motrices estructurales: primero, la monetización de grandes modelos se ha acelerado, y modelos como Claude han empezado a recortar el lado de las aplicaciones y lanzar una variedad de plug-ins industrialesEn segundo lugar, la implementación de Agentes se ha acelerado, y productos como openclaw y Qianwen Agent señalan que los Agentes están entrando en escenarios reales de trabajo y producción, y que cada llamada de modelo y ejecución de tarea de Agente requiere una gran cantidad de soporte de potencia de cálculo de inferencia.

Según datos citados por Shenwan Hongyuan Research, el volumen de inferencia de los modelos grandes líderes nacionales aumentó significativamente durante el Festival de Primavera: el rendimiento de inferencia de Doubao en Nochevieja alcanzó los 63.300 millones de tokens, los usuarios activos mensuales de Yuanbao alcanzaron los 114 millones, y el número de participantes en la actividad "Orden Libre del Festival de Primavera" de Qianwen superó los 120 millones.

Los datos de OpenRouter, una plataforma global de agregación de API de modelos de IA, revelan aún más la magnitud de esta tendencia. En la semana del 9 al 15 de febrero, el modelo chino superó por primera vez al modelo estadounidense de 2,94 billones de tokens con 4,12 billones de tokens; en la semana del 16 al 22 de febrero, el número de llamadas de modelos chinos aumentó aún más hasta 5,16 billones, un 127% más en tres semanas, y China ocupó cuatro de los cinco primeros modelos del mundo.

LPU se ha convertido en una emergente, y los chips de entrenamiento e inferencia se diferencian
------------------

Nvidia gastó 20.000 millones de dólares para licenciar la tecnología central de Groq y trajo un equipo ejecutivo, incluido el fundador Jonathan Ross, en un acuerdo de "contratación principal". La investigación de Shenwan Hongyuan considera queEste acuerdo marca el reconocimiento oficial de la importancia de las fichas de razonamiento puro por parte de los mejores jugadores.

La diferencia arquitectónica entre las LPU y las GPUs tradicionales es la razón fundamental por la que tienen ventajas de eficiencia en escenarios de inferencia.La inferencia de IA se divide en dos etapas: pre-llenado y decodificación, y el proceso de decodificación de grandes modelos es particularmente lento, mientras que LPU ha sido especialmente optimizado para los dos principales cuellos de botella de inferencia: latencia y ancho de banda de memoria. Según informes previos de Wall Street News, los próximos nuevos productos de Nvidia podrían incluir la arquitectura Feynman de próxima generación, adoptar un esquema de integración SRAM más amplio o incluso integrar profundamente las LPUs mediante tecnología de apilamiento 3D.

Shenwan Hongyuan Research sostiene que los chips de IA formarán un claro patrón de división técnica en el futuro:El lado de entrenamiento continúa usando la combinación GPU-HBM, mientras que el lado de inferencia evoluciona hacia el esquema de combinación ASIC+LPU-SRAM+SSD. A medida que la demanda de potencia de cálculo pasa de la formación a la inferencia, los fabricantes que se centren en chips de inferencia abrirán oportunidades de desarrollo.

El sistema de inferencia ha sido innovado de forma integral, y los requisitos de CPU y red han aumentado simultáneamente
---------------------

Desde un solo chip hasta el nivel del sistema, la innovación es otra dimensión importante de esta ronda de actualización de la potencia de cálculo por inferencia. Shenwan Hongyuan Research señaló que, a medida que el escenario de aplicación cambia de chatbot a agente,Los requisitos de latencia, rendimiento y profundidad de pensamiento en sistemas informáticos han aumentado al mismo tiempo, promoviendo la evolución de la arquitectura del sistema hacia redes de Capa 3.

La primera capa es la capa de reacción rápida, proporcionado por un chip puro de inferencia equipado con SRAM para proporcionar retroalimentación de latencia extremadamente baja;La segunda capa es la capa de pensamiento lento, utilizando clústeres de potencia de computación ultra-grande para manejar deducciones lógicas complejas, la demanda de CPUs multinúcleo y multihilo en esta capa aumentará significativamente;La tercera capa es la capa de memoria, correspondiente al ContextMemory System publicado por NVIDIA, la memoria a largo plazo y la caché KV de los agentes de almacenamiento SSD gestionados por Bluefield4 DPU.

Nvidia también está ajustando su estrategia a nivel de hardware. La práctica estándar anterior de agrupar CPUs Vera con GPUs Rubin resultó ser prohibitivamente costosa para cargas de trabajo específicas de agentes de IA. Nvidia anunció este mes que ha ampliado su colaboración con Meta Platforms para completar su primer despliegue masivo puramente de CPU para apoyar a los agentes de IA orientados a publicidad de Meta, lo que señala que la compañía está yendo más allá de un modelo de ventas de una sola GPU.

La potencia informática nacional aceleró los avances
--------

La investigación de Shenwan Hongyuan considera que
La actualización tecnológica de los chips de inferencia domésticos merece la pena prestar atención
, y hay una baja expectativa de mercado.

A nivel técnico,La nueva generación de chips de inferencia domésticos ha logrado una serie de mejoras fundamentales: Se añadió soporte para formatos de datos de baja precisión como FP8/MXFP8/MXFP4, con potencia de cálculo que alcanzaba 1P y 2P respectivamente. Mejorar considerablemente la potencia de computación vectorial y adoptar un nuevo diseño isomorfo que soporte modelos de programación dual SIMD/SIMT. El ancho de banda de interconexión es 2,5 veces mayor que en la generación anterior, alcanzando los 2 TB/s.

Es especialmente destacable que la separación de PD se logre a nivel de chip: mediante HBM desarrollado por uno mismo con dos especificaciones diferentes, constituye una versión PR para escenarios de Prefilled y recomendación, y una versión DT para escenarios de Decodificación y entrenamiento. Entre ellas, la versión PR adopta HBM de bajo coste, que puede reducir considerablemente el coste de inversión de la etapa de prellenado por inferencia, y se espera que se lance en el primer trimestre de 2026.

A nivel de cadena de suministro, el progreso de los fabricantes nacionales de envases y pruebas aporta pruebas. Según la primera ronda de consulta y carta de respuesta de una empresa líder en envasado y pruebas, los ingresos del negocio de envasado 2.5D provienen principalmente de servicios de empaquetado de chips de computación de alto rendimiento, que han crecido rápidamente de 50 millones de yuanes en 2022 a 1.820 millones de yuanes en 2024.Confirma que la capacidad de suministro de los chips de potencia informática nacionales sigue mejorando y que el proceso de localización de la cadena de suministro se está acelerando.

Advertencia de riesgo y aviso legal



El mercado es arriesgado y la inversión debe ser cautelosa. Este artículo no constituye asesoramiento personal de inversión y no tiene en cuenta los objetivos específicos de inversión, la situación financiera o las necesidades de los usuarios individuales. Los usuarios deben considerar si las opiniones, puntos de vista o conclusiones contenidas en este artículo son coherentes con sus circunstancias específicas. Invierte en consecuencia bajo tu propio riesgo.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado