No sobreestimes Nvidia No subestimes DeepSeek

DeepSeek-V4 finalmente ha llegado.

El 24 de abril, la versión preliminar de la nueva serie de modelos DeepSeek-V4 fue lanzada oficialmente y también se abrió su código fuente.

DeepSeek-V4 ha inaugurado un mecanismo de atención completamente nuevo, que comprime en la dimensión de tokens, combinando la atención dispersa DSA (DeepSeek Sparse Attention), logrando capacidades de contexto largo líderes en el mundo, y además reduce significativamente la demanda de cálculo y memoria de video en comparación con los métodos tradicionales.

No subestimes esto, DeepSeek-V4 reduce en gran medida la demanda de cálculo y memoria de video.

MiaoTou cree que esto debilitará directamente la ventaja de las GPU de Nvidia. Es importante destacar que DeepSeek-V4 también prioriza la compatibilidad con fabricantes de chips nacionales.

En otras palabras, no sobreestimes la brecha de Nvidia, y tampoco subestimes la revolución arquitectónica que DeepSeek está impulsando. La clave no está en “quién reemplaza a quién”, sino en cómo cambian la distribución de beneficios en la cadena de la industria de IA, las rutas de despliegue y la lógica de inversión, que podrían estar en transformación.

Bailando con “grilletes”

En los últimos dos años, los grandes modelos de IA se han centrado principalmente en el entrenamiento, compitiendo en poder de cómputo.

En cierta medida, la competencia en los grandes modelos básicos de IA esencialmente es una competencia en infraestructura de poder de GPU. Quien pueda adquirir más GPU de alta gama, quien pueda montar clústeres más grandes, tendrá más oportunidades de crear modelos básicos más potentes.

Sin embargo, debido a las restricciones de exportación de EE. UU., la venta de chips de primera línea como H100/H200 a China está prohibida. Además, procesos avanzados de TSMC ya están bloqueados por EE. UU., y las GPU nacionales aún tienen cierta brecha con las de Nvidia.

“Los fabricantes de GPU nacionales están compitiendo con Nvidia con ‘grilletes’ puestos”, comentó un representante de una empresa de GPU a MiaoTou.

Lo interesante es que, en medio de estas adversidades, en estos dos años la brecha entre los grandes modelos de EE. UU. y China comenzó a reducirse, e incluso a nivelarse.

A finales de 2023, la diferencia en rendimiento de los modelos top de EE. UU. y China en varias dimensiones aún oscilaba entre el 20% y el 30%. El 14 de abril, el Laboratorio HAI de Stanford publicó el Informe de Índice de IA 2026, un informe de 423 páginas que muestra que la brecha de rendimiento entre los grandes modelos de EE. UU. y China se ha reducido al 2.7%, logrando casi la paridad técnica.

MiaoTou opina que, si consideramos la diferencia en rendimiento de los grandes modelos de IA entre EE. UU. y China como un resultado, entonces la GPU de Nvidia no es un factor decisivo.

Esto se debe en parte al auge de los chips nacionales y a la infraestructura eléctrica completa en China.

Jensen Huang afirmó en una reciente entrevista: “La IA es esencialmente un problema de cálculo paralelo. China puede compensar la diferencia en proceso de fabricación de chips apilando más chips. China tiene tanta energía que, si quiere, puede combinar más chips, incluso si el proceso es unos nanómetros más atrasado.”

De hecho, muchas empresas nacionales de GPU ya han logrado clústeres de decenas de miles de tarjetas para compensar las limitaciones de potencia de cálculo de una sola tarjeta. Por ejemplo: el clúster de decenas de miles de tarjetas de Moores, y el clúster SADA de Muxi con la tarjeta Xiyuan Uno.

Por otro lado, esto se atribuye a que las grandes empresas de modelos, representadas por DeepSeek, han emergido con fuerza.

DeepSeek, mediante un diseño avanzado en software, adapta y potencia activamente hardware nacional, allanando el camino para los chips nacionales.

Por ejemplo: DeepSeek-V3 validó la viabilidad del FP8 en entrenamiento de modelos a gran escala, ampliando la escala de entrenamiento sin costos adicionales y sin afectar la calidad del entrenamiento.

Por ejemplo: antes, para completar una tarea compleja de cálculo de IA, se necesitaban varias máquinas importadas de Alemania, grandes, precisas y costosas (representando las GPU de alta precisión de Nvidia). Ahora, DeepSeek, cambiando el proceso de la tarea (el formato de datos), permite que esta tarea sea realizada eficientemente por decenas de máquinas pequeñas, simples y baratas (los componentes de cálculo de GPU nacionales).

Aun así, las GPU de Nvidia siguen dominando en entrenamiento de grandes modelos a nivel internacional.

Pero desde la evolución de la industria, el entrenamiento de grandes modelos es solo la primera fase. Una vez que el modelo está listo, lo que realmente determina la velocidad de comercialización y la penetración industrial es la inferencia, especialmente tras el auge de agentes como Openclaw y Hermes.

Nvidia ganó en entrenamiento, pero la inferencia apenas comienza

El entrenamiento y la inferencia son dos modos diferentes.

El auge de los agentes tipo Claw, cuya capacidad de memoria de contexto largo es la clave detonante.

Antes, la IA solo podía chatear y olvidaba rápidamente, con memoria de pez; ahora, Claw puede recordar todo, seguir trabajando, entenderte mejor con el uso, y su memoria la convierte de “juguete” en “herramienta”.

A medida que el contexto se alarga, la memoria del agente se profundiza y las llamadas a herramientas se vuelven más frecuentes, la memoria cache KV (memoria de almacenamiento) en la GPU puede colapsar, y la calidad de la inferencia del gran modelo disminuirá.

Por lo tanto, el primer cuello de botella en la explosión de la inferencia no es la capacidad de cálculo, sino la competencia entre “memoria” y “cálculo” por la misma memoria de video.

Para las GPU nacionales, la capacidad de cálculo (TFLOPS pico) no es el mayor cuello de botella, sino la memoria de video. Y las GPU de Nvidia tienen una ventaja generacional de 1-2 años en tecnología de memoria.

Las GPU de centros de datos de Nvidia (como A100, H100) suelen tener 80GB de memoria por tarjeta, mientras que la última generación de GPU Rubin cuenta con 8 chips HBM4 de 36GB (total 288GB), con un ancho de banda de memoria de 13 TB/s.

Las chips nacionales, limitadas por procesos avanzados, tienen menor capacidad y ancho de banda de memoria, aún necesitan romper barreras. Por ejemplo: la memoria del Ascend 910B es de 64GB.

Según un artículo publicado anteriormente por Liang Wenfeng, DeepSeek-V4 probablemente adopte una arquitectura Engram única, que precisamente resuelve el cuello de botella de capacidad de memoria.

DeepSeek-V4 extrae el conocimiento “memorístico” estático del modelo y lo almacena en una enorme tabla de memoria; durante la inferencia, la CPU se encarga de “consultar el diccionario” (recuperar conocimientos), mientras que la GPU solo realiza “cálculos lógicos” (inferencias).

Ambos procesos se ejecutan en paralelo. Cuando la GPU calcula la lógica de una palabra, la CPU ya ha traído el conocimiento necesario para la siguiente. Gracias a esta arquitectura paralela, la eficiencia de producción en una unidad de tiempo se multiplica geométricamente, y la memoria de video de la GPU ya no se colapsa con la cache KV.

Por ejemplo: una tarea de inferencia de contexto largo que requiere 80GB de memoria, en arquitectura Engram podría realizarse con solo 8GB.

Esto significa que, incluso con memoria limitada, las GPU nacionales podrán realizar tareas similares, mientras que la escasez de HBM de Nvidia enfrentará un colapso. Además, la CPU también experimentará un auge.

Además, lo que es aún más importante, DeepSeek-V4 se lanzará pronto, y en esta ocasión no se ha dado acceso temprano a Nvidia, sino que se ha reservado toda la oportunidad de compatibilidad previa para Huawei y Cambrian. El objetivo es migrar del ecosistema CUDA al marco CANN de Huawei.

Aunque el ecosistema CUDA de Nvidia no será reemplazado a corto plazo, ya se han abierto grietas. Esto también significa que DeepSeek, tanto en ecosistema de código abierto como en autonomía nacional, mantiene un nicho fuerte.

Según medios, para atender la demanda de servicios en la nube basados en este modelo, gigantes tecnológicos como Alibaba, ByteDance y Tencent ya han realizado pedidos anticipados de los nuevos chips de IA de Huawei, con volúmenes que alcanzan decenas de miles de unidades.

Se prevé que DeepSeek-V4, que pronto será lanzado, también traerá nuevas expectativas de inversión en IA.

Nuevas expectativas de inversión

Desde la perspectiva de inversión, MiaoTou cree que DeepSeek-V4 beneficiará directamente a dos grandes áreas: la potencia de cálculo nacional y las aplicaciones de IA.

1. Potencia de cálculo nacional

Si se confirma que DeepSeek-V4 fue entrenado completamente con potencia de cálculo nacional, será un “momento DeepSeek” en la historia de los chips nacionales. Esto demostraría que, incluso sin H100, podemos entrenar modelos de gran escala de clase mundial.

El cambio marginal que esto implica supera las expectativas. No es menor que Google haya entrenado Gemini con su TPU propio. Hay que recordar que Google ya forma parte de las inversiones de Buffett en Berkshire Hathaway.

Hasta ahora, las expectativas del mercado sobre la potencia de cálculo nacional se centraban en la narrativa de “autonomía y control”, pero V4 llevará esa lógica a una dimensión de “eficacia y necesidad” en el negocio.

El mayor beneficiario será, sin duda, los fabricantes nacionales de GPU. Huawei y Cambrian ya han confirmado su apoyo. Otros fabricantes nacionales también adaptarán activamente los grandes modelos de DeepSeek. Desde una perspectiva de certeza, los beneficios más claros serán para los chips, servidores y proveedores relacionados de Huawei, Cambrian y otros.

De cara a 2026, empresas como Cambrian, Bairen y Tianshu Zhixin, que cotizan en bolsa, esperan un crecimiento de ingresos del 120% aproximadamente, alcanzando unos 25.7 mil millones de RMB.

Además, en términos de resiliencia, Muxi espera que en 2026 la compañía vuelva a la rentabilidad, convirtiéndose en otra empresa de GPU rentable tras Cambrian, cerrando así el ciclo comercial.

Por lo tanto, la potencia de cálculo nacional será un foco clave para la inversión en IA.

2. Aplicaciones de IA

Además de adaptar la inferencia a la potencia de cálculo nacional, DeepSeek-V4 podría reducir aún más los costos de entrenamiento e inferencia mediante innovaciones en arquitectura (mHC y tecnología Engram), acelerando el ciclo de innovación en la cadena de valor de IA en China.

Al mismo tiempo, DeepSeek puede ayudar a acelerar la comercialización de grandes modelos de lenguaje y aplicaciones de IA a nivel global, aliviando la creciente presión de gastos de capital.

Con la implementación de la arquitectura Engram, la demanda de memoria en GPU se reducirá en un 90%, y los costos de hardware para inferencia se reducirán significativamente. Esto será una gran noticia para el despliegue en terminales (IA en el borde).

Además, desde enero de este año, el sector de aplicaciones de IA en A-shares ha mostrado un rendimiento débil, con el temor principal de que los “grandes modelos devoren el software”. La fase actual de IA se ha convertido en una etapa de “estrategia de eliminación”.

Pero la llegada de DeepSeekV4 podría mejorar este estado de ánimo. Para las empresas de aplicaciones en A-shares, los grandes modelos se ven más como infraestructura económica, lo que favorece la optimización de costos.

MiaoTou cree que las empresas de aplicaciones de IA estrechamente vinculadas a datos clave y los proveedores de servicios en la nube también podrán experimentar mejoras marginales.

Resumen

Nvidia sigue siendo la infraestructura más fuerte para entrenar grandes modelos, sin duda alguna. A corto plazo, su ventaja en GPU de entrenamiento de alta gama, ecosistema CUDA y capacidad de clústeres sigue siendo difícil de reemplazar.

No obstante, no se puede ignorar que la ventaja de Nvidia está siendo gradualmente socavada por DeepSeek, en una especie de “curva de recuperación” de la estrategia nacional.

DeepSeek-V4, al priorizar la compatibilidad con chips nacionales y la innovación, intenta demostrar que la inferencia de IA no tiene que depender únicamente de las GPU más caras. La optimización a nivel de sistema, la colaboración hardware-software y el despliegue local también pueden abrir nuevos caminos. Y la potencia de cálculo nacional puede avanzar aún más.

No sobreestimes a Nvidia, y tampoco subestimes a DeepSeek y la potencia de cálculo nacional.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado