El 3 de agosto de 2023, Wall Street y Silicon Valley presentaron conjuntamente un evento importante que conmocionó a la industria: permitir que una nueva empresa obtuviera 2.300 millones de dólares en financiación de deuda, y la garantía era la moneda más fuerte del mundo: la tarjeta gráfica H100.
El protagonista de este gran evento se llama CoreWeave. Su negocio principal son los servicios de nube privada de IA. En pocas palabras, proporciona infraestructura informática para nuevas empresas de IA y grandes clientes comerciales mediante la construcción de un centro de datos con una gran cantidad de potencia informática de GPU. CoreWeave ha recaudado un total de 580 millones de dólares y actualmente se encuentra en la ronda B con una valoración de 2 mil millones de dólares.
CoreWeave fue fundada en 2016 por tres comerciantes de materias primas de Wall Street. Al principio, el negocio principal de la empresa era solo uno: minería, compra de una gran cantidad de GPU para construir un centro de máquinas mineras. Especialmente cuando el círculo monetario estaba en su punto más bajo, la empresa se abastecía de una gran cantidad de tarjetas gráficas. de forma contracíclica, y así estableció una amistad revolucionaria férrea con Nvidia.
Tres cofundadores de CoreWeave
En 2019, CoreWeave comenzó a transformar estas máquinas mineras en centros de datos de nivel empresarial para brindar servicios de inteligencia artificial en la nube a los clientes. El negocio no fue tibio al principio, pero después del nacimiento de ChatGPT, la capacitación y el razonamiento de modelos grandes consumen mucho. CoreWeave, que ya tiene decenas de miles de tarjetas gráficas (por supuesto, no necesariamente el último modelo), despegó rápidamente y la puerta se llenó de clientes e inversores de capital de riesgo.
Pero lo que hace que la gente se sienta extraña es que CoreWeave solo ha recaudado un total de 580 millones de dólares estadounidenses y el valor neto de su GPU no excederá los mil millones de dólares estadounidenses. Incluso la valoración general de la compañía es de solo 2 mil millones de dólares estadounidenses, pero ¿por qué? ¿Toma prestados 2.300 millones de dólares mediante hipotecas? ¿Qué pasa con los dólares? ¿Por qué Wall Street, que siempre ha sido bueno para los cálculos y dispuesto a recortar el valor de las garantías, es tan generoso?
La razón es más probable: aunque CoreWeave no tiene tantas tarjetas gráficas en su cuenta, ha recibido un compromiso de suministro de Nvidia, especialmente la H100.
La estrecha relación de CoreWeave con Nvidia ya es un secreto a voces en Silicon Valley. Este tipo de incondicional tiene sus raíces en la lealtad y el apoyo inquebrantables de CoreWeave a Nvidia: solo usa tarjetas Nvidia, decididamente no fabrica sus propios núcleos y ayuda a Nvidia a almacenar tarjetas cuando las tarjetas gráficas no se pueden vender. Para Huang, el valor de esta relación supera con creces las amistades plásticas con Microsoft, Google y Tesla.
Por lo tanto, a pesar de la escasez de Nvidia H100, Nvidia asignó una gran cantidad de tarjetas nuevas a CoreWeave e incluso limitó el suministro a los principales fabricantes como Amazon y Google. Huang Renxun elogió durante la conferencia telefónica: "Surgirá un nuevo grupo de proveedores de servicios en la nube de GPU, el más famoso de los cuales es CoreWeave. Lo están haciendo muy bien".
Una semana antes de que Xi recaudara los 2.300 millones de dólares, CoreWeave anunció que gastaría 1.600 millones de dólares para construir un centro de datos que cubriera un área de 42.000 metros cuadrados en Texas. Confiando únicamente en la relación con Nvidia y los derechos de distribución prioritarios, CoreWeave puede pedir prestado dinero al banco para construir el centro de datos; este modelo recuerda a los desarrolladores inmobiliarios que buscan préstamos bancarios inmediatamente después de adquirir el terreno.
Por tanto, se puede decir que el actual compromiso de suministro de H100 es comparable a la aprobación de un terreno en la época dorada del sector inmobiliario.
H100 es una tarjeta difícil de encontrar
En una entrevista en abril de este año, Musk se quejó [2] : "Parece que ahora incluso los perros están comprando GPU".
Irónicamente, Tesla lanzó su chip D1 de desarrollo propio ya en 2021, que fue fabricado por TSMC y adoptó un proceso de 7 nm, afirmando que podía reemplazar al A100 convencional de Nvidia en ese momento. Pero dos años después, Nvidia lanzó el H100 más potente y el D1 de Tesla no tuvo versiones posteriores, por lo que cuando Musk intentó formar su propia empresa de inteligencia artificial, todavía tuvo que arrodillarse frente a la puerta del Sr. Huang y pedir permiso. .
El H100 se lanzó oficialmente el 20 de septiembre del año pasado y se fabrica mediante el proceso TSMC 4N. En comparación con su predecesor A100, la tarjeta única H100 mejora la velocidad de inferencia en 3,5 veces y la velocidad de entrenamiento en 2,3 veces. Si se utiliza el método de computación en clúster de servidores, la velocidad de entrenamiento se puede aumentar a 9 veces. La carga de trabajo original de una semana Ahora sólo se necesitan 20 horas.
Diagrama de arquitectura GH100
En comparación con el A100, el precio de una sola tarjeta del H100 es más caro, entre 1,5 y 2 veces el del A100, pero la eficiencia de entrenamiento de modelos grandes ha aumentado en un 200%, por lo que el "rendimiento por dólar" es mayor. . Si se combina con la última solución de sistema de conexión de alta velocidad de NVIDIA, el rendimiento de la GPU por dólar puede ser de 4 a 5 veces mayor, por lo que los clientes lo buscan enormemente.
Los clientes que se apresuran a comprar H100 se dividen principalmente en tres categorías:
La primera categoría son los gigantes integrales de la computación en la nube, como Microsoft Azure, Google GCP y Amazon AWS. Su característica es que son ricos y poderosos, y quieren "cercar" la capacidad de producción de Nvidia en todo momento, pero cada uno de ellos también oculta sus propios pensamientos, insatisfechos con la posición casi monopólica de Nvidia, y desarrolla en secreto sus propios chips para reducir costos.
La segunda categoría son los proveedores independientes de servicios de GPU en la nube. Las empresas típicas incluyen CoreWeave, Lambda, RunPod, etc., mencionadas anteriormente. Este tipo de empresas tienen una potencia informática relativamente pequeña, pero pueden ofrecer servicios diferenciados. Nvidia también apoya firmemente a este tipo de empresas, e incluso invierte directamente en CoreWeave y Lambda. El propósito es muy claro: brindar servicios a aquellos gigantes que construyen núcleos. en privado Ponte gotas para los ojos.
La tercera categoría son las empresas grandes y pequeñas que están formando LLM (Large Language Model). Incluye nuevas empresas como Anthropic, Inflection y Midjourney, así como gigantes tecnológicos como Apple, Tesla y Meta. Por lo general, utilizan la potencia informática de proveedores externos de servicios en la nube mientras compran sus propias GPU para construir sus propias estufas: los que tienen dinero compran más, los que no tienen dinero compran menos y el objetivo principal es permitir que la gente sea rica y frugal.
Entre estos tres tipos de clientes, Microsoft Azure tiene al menos 50 000 H100, Google tiene alrededor de 30 000, Oracle tiene alrededor de 20 000 y Tesla y Amazon tienen al menos 10 000. Se dice que CoreWeave tiene un compromiso de cuota de 35 000 (la entrega real es de aproximadamente 10.000). Pocas empresas tienen más de 10.000 billetes.
¿Cuántos H100 necesitan en total estos tres tipos de clientes? Según las predicciones de la organización extranjera GPU Utils, la demanda actual de H100 es de aproximadamente 432.000. Entre ellos, OpenAI requiere 50.000 imágenes para entrenar GPT-5, Inflection requiere 22.000 imágenes y Meta requiere 25.000 imágenes (algunos dicen 100.000 imágenes). Cada uno de los cuatro principales proveedores de nube pública requiere al menos 30.000 imágenes. La industria de la nube privada es 100.000 unidades, y otros pequeños fabricantes de modelos también tienen una demanda de 100.000 unidades. [3] 。
Los envíos de Nvidia H100 en 2023 rondarán las 500.000 unidades. Actualmente, la capacidad de producción de TSMC sigue aumentando y, a finales de año, se aliviará la dificultad de encontrar una tarjeta H100.
Pero a largo plazo, la brecha entre oferta y demanda de H100 seguirá aumentando con la explosión de las aplicaciones AIGC. Según el Financial Times, los envíos de H100 alcanzarán entre 1,5 y 2 millones de hojas en 2024, un aumento de 3 a 4 veces en comparación con las 500.000 hojas de este año. [4] 。
Las predicciones de Wall Street son más agresivas: el banco de inversión estadounidense Piper Sandler cree que los ingresos del centro de datos de Nvidia superarán los 60 mil millones de dólares el próximo año (FY24Q2: 10,32 mil millones de dólares), según estos datos, los envíos de tarjetas A+H se acercan a los 3 millones.
Hay estimaciones aún más exageradas. La mayor fundición de servidores H100 (con una participación de mercado del 70% al 80%) ha estado enviando servidores H100 desde junio de este año y su capacidad de producción aumentó gradualmente en julio. Según una encuesta reciente, la fundición cree que el envío de tarjetas A+H en 2024 será de entre 4,5 y 5 millones.
Esto significa "riqueza y riqueza" para Nvidia, porque el grado de enormes ganancias del H100 es inimaginable para personas de otras industrias.
Tarjeta gráfica más cara que el oro
Para entender cuán rentable es el H100, también podríamos desmantelar su lista de materiales (BOM).
Como se muestra en la figura, la versión más versátil de H100, H100 SXM, utiliza el paquete de troqueles CoWoS de TSMC 7. Seis chips HBM3 de 16G están dispuestos en dos filas que rodean estrechamente el chip lógico del medio.
Esto también constituye las tres partes más importantes del H100: chip lógico, chip de memoria HBM y paquete CoWoS. Además, también hay algunos componentes auxiliares como placas PCB y otros componentes auxiliares, pero su valor no es alto.
Diagrama de desmontaje del H100
El tamaño del chip lógico central es de 814 mm ^ 2, se produce en la fábrica número 18 de Tainan más avanzada de TSMC y el nodo de proceso utilizado es "4N", aunque el nombre comienza con 4, en realidad es de 5 nm+. Debido a la escasa prosperidad en las áreas posteriores de 5 nm, como los teléfonos móviles, TSMC no tiene problemas para garantizar el suministro de chips lógicos.
Y este chip lógico se produce cortando una oblea de 12 pulgadas (área 70,695 mm^2). Idealmente, se pueden cortar 86 piezas, pero considerando la tasa de rendimiento del 80% y la pérdida de corte de la línea "4N", la última Sólo se pueden cortar chips lógicos de 65 núcleos de una oblea de 12 pulgadas.
¿Cuánto cuesta este chip lógico central? La cotización externa de TSMC para una oblea de 12 pulgadas en 2023 es de 13.400 dólares, por lo que convertida a una sola unidad costará unos 200 dólares.
A continuación se encuentran 6 chips HBM3, que actualmente son suministrados exclusivamente por SK Hynix. Esta empresa, que se originó en la electrónica moderna, casi se comprometió con Micron en 2002. Con la transfusión de sangre del gobierno y la estrategia de capacidad de producción anticíclica, ahora está en el bloque de HBM. está al menos 3 años por delante de Micron en términos de tecnología de producción en masa (Micron está estancada en HBM2e y Hynix lo producirá en masa a mediados de 2020).
El precio específico de HBM se mantiene en secreto, pero según los medios coreanos, HBM es actualmente entre 5 y 6 veces mayor que el de los productos DRAM existentes. El precio de la VRAM GDDR6 existente es de unos 3 dólares por GB, por lo que se estima que el precio de HBM ronda los 15 dólares por GB. Ese H100 SXM costó $1500 en HBM.
Aunque el precio de HBM sigue subiendo este año y los ejecutivos de Nvidia y Meta también acudieron a Hynix para "supervisar el trabajo", el HBM3 de Samsung se producirá en masa y se enviará gradualmente en la segunda mitad del año. HBM ya no será un cuello de botella.
El verdadero cuello de botella es el empaquetado CoWoS de TSMC, que es un proceso de empaquetado 2.5D. En comparación con el empaquetado 3D que perfora directamente agujeros (TSV) y cableado (RDL) en el chip, CoWoS puede proporcionar mejores costos, disipación de calor y ancho de banda de rendimiento. Los dos primeros corresponden a HBM y los dos últimos son la clave de la GPU.
Entonces, si desea un chip con alta capacidad de almacenamiento y alta potencia informática, CoWoS es la única solución en términos de empaque. El hecho de que las cuatro GPU de Nvidia y AMD utilicen CoWoS es la mejor prueba.
¿Cuánto cuesta CoWoS? El informe financiero de 22 años de TSMC reveló que el proceso CoWoS representó el 7% de los ingresos totales, por lo que el analista extranjero Robert Castellano calculó, basándose en la capacidad de producción y el tamaño del troquel desnudo, que empaquetar un chip de IA puede generarle a TSMC $723 en ingresos. [6] 。
Por lo tanto, sumando los tres costos más importantes mencionados anteriormente, el total es de aproximadamente 2500 dólares estadounidenses, de los cuales TSMC representa aproximadamente 1000 dólares estadounidenses (chip lógico + CoWoS), SK Hynix representa 1500 dólares estadounidenses (Samsung definitivamente se involucrará en el futuro), y también se incluyen PCB y otros materiales, el costo total del material no excede los 3.000 dólares estadounidenses.
¿Cuánto cuesta el H100? 35.000 dólares estadounidenses, basta con añadir un cero y la tasa de beneficio bruto supera el 90%. En los últimos 10 años, el margen de beneficio bruto de Nvidia ha sido de alrededor del 60%. Ahora impulsado por las A100/A800/H100 de alto margen, el margen de beneficio bruto de Nvidia en el segundo trimestre de este año ha alcanzado el 70%.
Esto es un poco contrario a la intuición: Nvidia depende en gran medida de la fundición de TSMC, cuyo estado es intocable, e incluso es el único vínculo central que puede estrangular a Nvidia. Pero por una tarjeta de 35.000 dólares, TSMC, que la fabrica, sólo puede obtener 1.000 dólares, y eso son sólo ingresos, no ganancias.
Sin embargo, utilizar el margen de beneficio bruto para definir enormes beneficios tiene poco sentido para las empresas de chips. Si partimos de la arena, el margen de beneficio bruto será mayor. TSMC vende a todo el mundo una oblea de 12 pulgadas fabricada con tecnología 4N por casi 15.000 dólares EE.UU. NVIDIA, naturalmente, tiene su conocimiento para añadir un precio de venta al público para venderla a los clientes.
El secreto de este truco es el siguiente: Nvidia es esencialmente una empresa de software que se hace pasar por un fabricante de hardware.
Un foso que integra software y hardware
El arma más poderosa de NVIDIA se esconde en el margen de beneficio bruto menos el margen de beneficio neto.
Antes de esta ronda de auge de la IA, el margen de beneficio bruto de Nvidia se mantenía en torno al 65% durante todo el año, mientras que su margen de beneficio neto solía ser sólo del 30%. En el segundo trimestre de este año, impulsado por el elevado beneficio bruto del A100/A800/H100, el margen de beneficio bruto se situó en el 70% y el margen de beneficio neto llegó al 45,81%.
En los últimos tres años fiscales, el margen de beneficio bruto y el margen de beneficio neto de NVIDIA (NVIDIA) en un solo trimestre
Nvidia cuenta actualmente con más de 20.000 empleados en todo el mundo, la mayoría de los cuales son ingenieros de software y hardware bien remunerados. Según datos de Glassdoor, el salario medio anual para estos puestos es básicamente de más de 200.000 dólares al año.
Tasa de gasto en I+D de NVIDIA durante los últimos diez años fiscales
En los últimos diez años, el valor absoluto de los gastos en I+D de NVIDIA ha mantenido un rápido crecimiento, y la tasa de gastos en I+D también se ha mantenido por encima del 20% en un estado estable. Por supuesto, si la demanda de terminales estalla en un año determinado, como el aprendizaje profundo en 2017, la minería en 2021 y los grandes modelos de lenguaje este año, el denominador de los ingresos aumenta repentinamente y la tasa de gastos en I+D caerá brevemente al 20%. En consecuencia, los beneficios también aumentarán de forma no lineal.
Entre los muchos proyectos desarrollados por NVIDIA, el más crítico es sin duda CUDA.
En 2003, para resolver el problema del umbral de programación de DirectX demasiado alto, el equipo de Ian Buck lanzó un modelo de programación llamado Brook, que también fue el prototipo de lo que más tarde la gente llamó CUDA. En 2006, Buck se unió a NVIDIA y convenció a Jen-Hsun Huang para que desarrollara CUDA. [8] 。
Debido a que admite la computación paralela en el entorno del lenguaje C, CUDA se ha convertido en la primera opción de los ingenieros y la GPU se ha embarcado en el camino de los procesadores de propósito general (GPGPU).
Después de que CUDA maduró gradualmente, Buck una vez más persuadió a Huang Renxun de que todas las GPU de Nvidia en el futuro deben admitir CUDA. El proyecto CUDA se estableció en 2006 y el producto se lanzó en 2007. En ese momento, los ingresos anuales de NVIDIA eran solo de 3 mil millones de dólares, pero gastó 500 millones de dólares en CUDA. En 2017, el gasto en I + D solo en CUDA había superado los 10 mil millones. .
Un director ejecutivo de una empresa de nube privada dijo una vez en una entrevista que no habían pensado en comprar tarjetas AMD, pero que les llevaría al menos dos meses depurar estas tarjetas para que funcionaran normalmente. [3] . Para acortar estos dos meses, Nvidia invirtió decenas de miles de millones y tardó 20 años.
La industria de los chips ha tenido altibajos durante más de medio siglo, y nunca ha habido una empresa como Nvidia que venda hardware y ecología, o en palabras de Huang Renxun: "Vende sistemas barebone". Por lo tanto, el objetivo de Nvidia no son los sabios en el campo de los chips, sino Apple, otra empresa que vende sistemas.
Desde el lanzamiento de CUDA en 2007 hasta convertirse en la fábrica de impresión de billetes más grande del mundo, Nvidia no está exenta de rivales.
En 2008, Intel, el rey de la industria de chips en ese momento, interrumpió su cooperación con Nvidia en el proyecto de gráficos integrados y lanzó su propio procesador de propósito general (GPCPU), con la intención de "traer un río y dominar" en el campo de las PC. . Sin embargo, en las iteraciones de productos de los años siguientes, Nvidia insistió en promover sus propios procesadores en áreas que requerían una mayor potencia informática, como el espacio, las finanzas y la biomedicina, por lo que, en 10 años, Intel no vio ninguna esperanza de suprimirlos y se vio obligada a cancelar el plan de tarjeta gráfica independiente.
En 2009, el equipo de desarrollo de Apple lanzó OpenCL, con la esperanza de obtener una parte del pastel de CUDA en virtud de su versatilidad. Sin embargo, OpenCL es muy inferior a CUDA en la ecología del aprendizaje profundo. Muchos marcos de aprendizaje admiten OpenCL después del lanzamiento de CUDA o no admiten OpenCL en absoluto. Como resultado, el retraso en el aprendizaje profundo ha hecho que OpenCL no pueda llegar a empresas de mayor valor agregado.
En 2015, AlphaGo comenzó a hacer su debut en el campo del Go, declarando que había llegado la era de la inteligencia artificial. En ese momento, para alcanzar el último tren, Intel colocó la GPU de AMD en su propio chip del sistema. Esta es la primera colaboración entre las dos empresas desde la década de 1980. Pero ahora el valor de mercado combinado del líder de CPU, el segundo hijo + el segundo GPU es solo 1/4 del líder de GPU Nvidia.
Desde la perspectiva actual, el foso de Nvidia es casi impenetrable. Aunque hay muchos grandes clientes que están desarrollando en secreto sus propias GPU, pero con su enorme ecosistema y su rápida iteración, estos grandes clientes no pueden husmear en las grietas del imperio, como lo demuestra Tesla. El negocio de máquinas de impresión de dinero de NVIDIA continuará en el futuro previsible.
Quizás el único lugar donde Huang Renxun está atormentado por nubes oscuras es el lugar donde hay muchos clientes y una fuerte demanda, pero el H100 no se puede vender, pero la gente está rechinando los dientes para abordar el problema: solo hay un lugar en el mundo. .
Referencias
[1] base crujiente
[2] "Todos y sus perros están comprando GPU", dice Musk mientras la startup de IA detalla el HARDWARE de Emerge-tom
[3] GPU Nvidia H100: oferta y demanda: utilidades de GPU
[4] La escasez de la cadena de suministro retrasa la bonanza de la IA en el sector tecnológico, FT
[5] Restricciones de capacidad de IA: CoWoS y cadena de suministro de HBM: DYLAN PATEL, MYRON XIE y GERALD WONG, semianálisis
[6] Taiwan Semiconductor: significativamente infravalorado como proveedor de chips y paquetes para Nvidia-Robert Castellano, buscando alfa
[7] Guerra de chips, Yu Sheng
[8] ¿Qué es CUDA? Programación paralela para GPU: Martin Heller, InfoWorld
[9] Guía del usuario de NVIDIA DGX H100
Ver originales
El contenido es solo de referencia, no una solicitud u oferta. No se proporciona asesoramiento fiscal, legal ni de inversión. Consulte el Descargo de responsabilidad para obtener más información sobre los riesgos.
Loco H100
Original: Wang Yichuan
**Fuente:**Sociedad de Investigación del Silicio
El 3 de agosto de 2023, Wall Street y Silicon Valley presentaron conjuntamente un evento importante que conmocionó a la industria: permitir que una nueva empresa obtuviera 2.300 millones de dólares en financiación de deuda, y la garantía era la moneda más fuerte del mundo: la tarjeta gráfica H100.
El protagonista de este gran evento se llama CoreWeave. Su negocio principal son los servicios de nube privada de IA. En pocas palabras, proporciona infraestructura informática para nuevas empresas de IA y grandes clientes comerciales mediante la construcción de un centro de datos con una gran cantidad de potencia informática de GPU. CoreWeave ha recaudado un total de 580 millones de dólares y actualmente se encuentra en la ronda B con una valoración de 2 mil millones de dólares.
CoreWeave fue fundada en 2016 por tres comerciantes de materias primas de Wall Street. Al principio, el negocio principal de la empresa era solo uno: minería, compra de una gran cantidad de GPU para construir un centro de máquinas mineras. Especialmente cuando el círculo monetario estaba en su punto más bajo, la empresa se abastecía de una gran cantidad de tarjetas gráficas. de forma contracíclica, y así estableció una amistad revolucionaria férrea con Nvidia.
En 2019, CoreWeave comenzó a transformar estas máquinas mineras en centros de datos de nivel empresarial para brindar servicios de inteligencia artificial en la nube a los clientes. El negocio no fue tibio al principio, pero después del nacimiento de ChatGPT, la capacitación y el razonamiento de modelos grandes consumen mucho. CoreWeave, que ya tiene decenas de miles de tarjetas gráficas (por supuesto, no necesariamente el último modelo), despegó rápidamente y la puerta se llenó de clientes e inversores de capital de riesgo.
Pero lo que hace que la gente se sienta extraña es que CoreWeave solo ha recaudado un total de 580 millones de dólares estadounidenses y el valor neto de su GPU no excederá los mil millones de dólares estadounidenses. Incluso la valoración general de la compañía es de solo 2 mil millones de dólares estadounidenses, pero ¿por qué? ¿Toma prestados 2.300 millones de dólares mediante hipotecas? ¿Qué pasa con los dólares? ¿Por qué Wall Street, que siempre ha sido bueno para los cálculos y dispuesto a recortar el valor de las garantías, es tan generoso?
La razón es más probable: aunque CoreWeave no tiene tantas tarjetas gráficas en su cuenta, ha recibido un compromiso de suministro de Nvidia, especialmente la H100.
La estrecha relación de CoreWeave con Nvidia ya es un secreto a voces en Silicon Valley. Este tipo de incondicional tiene sus raíces en la lealtad y el apoyo inquebrantables de CoreWeave a Nvidia: solo usa tarjetas Nvidia, decididamente no fabrica sus propios núcleos y ayuda a Nvidia a almacenar tarjetas cuando las tarjetas gráficas no se pueden vender. Para Huang, el valor de esta relación supera con creces las amistades plásticas con Microsoft, Google y Tesla.
Por lo tanto, a pesar de la escasez de Nvidia H100, Nvidia asignó una gran cantidad de tarjetas nuevas a CoreWeave e incluso limitó el suministro a los principales fabricantes como Amazon y Google. Huang Renxun elogió durante la conferencia telefónica: "Surgirá un nuevo grupo de proveedores de servicios en la nube de GPU, el más famoso de los cuales es CoreWeave. Lo están haciendo muy bien".
Una semana antes de que Xi recaudara los 2.300 millones de dólares, CoreWeave anunció que gastaría 1.600 millones de dólares para construir un centro de datos que cubriera un área de 42.000 metros cuadrados en Texas. Confiando únicamente en la relación con Nvidia y los derechos de distribución prioritarios, CoreWeave puede pedir prestado dinero al banco para construir el centro de datos; este modelo recuerda a los desarrolladores inmobiliarios que buscan préstamos bancarios inmediatamente después de adquirir el terreno.
Por tanto, se puede decir que el actual compromiso de suministro de H100 es comparable a la aprobación de un terreno en la época dorada del sector inmobiliario.
H100 es una tarjeta difícil de encontrar
En una entrevista en abril de este año, Musk se quejó [2] : "Parece que ahora incluso los perros están comprando GPU".
Irónicamente, Tesla lanzó su chip D1 de desarrollo propio ya en 2021, que fue fabricado por TSMC y adoptó un proceso de 7 nm, afirmando que podía reemplazar al A100 convencional de Nvidia en ese momento. Pero dos años después, Nvidia lanzó el H100 más potente y el D1 de Tesla no tuvo versiones posteriores, por lo que cuando Musk intentó formar su propia empresa de inteligencia artificial, todavía tuvo que arrodillarse frente a la puerta del Sr. Huang y pedir permiso. .
El H100 se lanzó oficialmente el 20 de septiembre del año pasado y se fabrica mediante el proceso TSMC 4N. En comparación con su predecesor A100, la tarjeta única H100 mejora la velocidad de inferencia en 3,5 veces y la velocidad de entrenamiento en 2,3 veces. Si se utiliza el método de computación en clúster de servidores, la velocidad de entrenamiento se puede aumentar a 9 veces. La carga de trabajo original de una semana Ahora sólo se necesitan 20 horas.
En comparación con el A100, el precio de una sola tarjeta del H100 es más caro, entre 1,5 y 2 veces el del A100, pero la eficiencia de entrenamiento de modelos grandes ha aumentado en un 200%, por lo que el "rendimiento por dólar" es mayor. . Si se combina con la última solución de sistema de conexión de alta velocidad de NVIDIA, el rendimiento de la GPU por dólar puede ser de 4 a 5 veces mayor, por lo que los clientes lo buscan enormemente.
Los clientes que se apresuran a comprar H100 se dividen principalmente en tres categorías:
La primera categoría son los gigantes integrales de la computación en la nube, como Microsoft Azure, Google GCP y Amazon AWS. Su característica es que son ricos y poderosos, y quieren "cercar" la capacidad de producción de Nvidia en todo momento, pero cada uno de ellos también oculta sus propios pensamientos, insatisfechos con la posición casi monopólica de Nvidia, y desarrolla en secreto sus propios chips para reducir costos.
La segunda categoría son los proveedores independientes de servicios de GPU en la nube. Las empresas típicas incluyen CoreWeave, Lambda, RunPod, etc., mencionadas anteriormente. Este tipo de empresas tienen una potencia informática relativamente pequeña, pero pueden ofrecer servicios diferenciados. Nvidia también apoya firmemente a este tipo de empresas, e incluso invierte directamente en CoreWeave y Lambda. El propósito es muy claro: brindar servicios a aquellos gigantes que construyen núcleos. en privado Ponte gotas para los ojos.
La tercera categoría son las empresas grandes y pequeñas que están formando LLM (Large Language Model). Incluye nuevas empresas como Anthropic, Inflection y Midjourney, así como gigantes tecnológicos como Apple, Tesla y Meta. Por lo general, utilizan la potencia informática de proveedores externos de servicios en la nube mientras compran sus propias GPU para construir sus propias estufas: los que tienen dinero compran más, los que no tienen dinero compran menos y el objetivo principal es permitir que la gente sea rica y frugal.
Entre estos tres tipos de clientes, Microsoft Azure tiene al menos 50 000 H100, Google tiene alrededor de 30 000, Oracle tiene alrededor de 20 000 y Tesla y Amazon tienen al menos 10 000. Se dice que CoreWeave tiene un compromiso de cuota de 35 000 (la entrega real es de aproximadamente 10.000). Pocas empresas tienen más de 10.000 billetes.
¿Cuántos H100 necesitan en total estos tres tipos de clientes? Según las predicciones de la organización extranjera GPU Utils, la demanda actual de H100 es de aproximadamente 432.000. Entre ellos, OpenAI requiere 50.000 imágenes para entrenar GPT-5, Inflection requiere 22.000 imágenes y Meta requiere 25.000 imágenes (algunos dicen 100.000 imágenes). Cada uno de los cuatro principales proveedores de nube pública requiere al menos 30.000 imágenes. La industria de la nube privada es 100.000 unidades, y otros pequeños fabricantes de modelos también tienen una demanda de 100.000 unidades. [3] 。
Los envíos de Nvidia H100 en 2023 rondarán las 500.000 unidades. Actualmente, la capacidad de producción de TSMC sigue aumentando y, a finales de año, se aliviará la dificultad de encontrar una tarjeta H100.
Pero a largo plazo, la brecha entre oferta y demanda de H100 seguirá aumentando con la explosión de las aplicaciones AIGC. Según el Financial Times, los envíos de H100 alcanzarán entre 1,5 y 2 millones de hojas en 2024, un aumento de 3 a 4 veces en comparación con las 500.000 hojas de este año. [4] 。
Las predicciones de Wall Street son más agresivas: el banco de inversión estadounidense Piper Sandler cree que los ingresos del centro de datos de Nvidia superarán los 60 mil millones de dólares el próximo año (FY24Q2: 10,32 mil millones de dólares), según estos datos, los envíos de tarjetas A+H se acercan a los 3 millones.
Hay estimaciones aún más exageradas. La mayor fundición de servidores H100 (con una participación de mercado del 70% al 80%) ha estado enviando servidores H100 desde junio de este año y su capacidad de producción aumentó gradualmente en julio. Según una encuesta reciente, la fundición cree que el envío de tarjetas A+H en 2024 será de entre 4,5 y 5 millones.
Esto significa "riqueza y riqueza" para Nvidia, porque el grado de enormes ganancias del H100 es inimaginable para personas de otras industrias.
Tarjeta gráfica más cara que el oro
Para entender cuán rentable es el H100, también podríamos desmantelar su lista de materiales (BOM).
Como se muestra en la figura, la versión más versátil de H100, H100 SXM, utiliza el paquete de troqueles CoWoS de TSMC 7. Seis chips HBM3 de 16G están dispuestos en dos filas que rodean estrechamente el chip lógico del medio.
Esto también constituye las tres partes más importantes del H100: chip lógico, chip de memoria HBM y paquete CoWoS. Además, también hay algunos componentes auxiliares como placas PCB y otros componentes auxiliares, pero su valor no es alto.
El tamaño del chip lógico central es de 814 mm ^ 2, se produce en la fábrica número 18 de Tainan más avanzada de TSMC y el nodo de proceso utilizado es "4N", aunque el nombre comienza con 4, en realidad es de 5 nm+. Debido a la escasa prosperidad en las áreas posteriores de 5 nm, como los teléfonos móviles, TSMC no tiene problemas para garantizar el suministro de chips lógicos.
Y este chip lógico se produce cortando una oblea de 12 pulgadas (área 70,695 mm^2). Idealmente, se pueden cortar 86 piezas, pero considerando la tasa de rendimiento del 80% y la pérdida de corte de la línea "4N", la última Sólo se pueden cortar chips lógicos de 65 núcleos de una oblea de 12 pulgadas.
¿Cuánto cuesta este chip lógico central? La cotización externa de TSMC para una oblea de 12 pulgadas en 2023 es de 13.400 dólares, por lo que convertida a una sola unidad costará unos 200 dólares.
A continuación se encuentran 6 chips HBM3, que actualmente son suministrados exclusivamente por SK Hynix. Esta empresa, que se originó en la electrónica moderna, casi se comprometió con Micron en 2002. Con la transfusión de sangre del gobierno y la estrategia de capacidad de producción anticíclica, ahora está en el bloque de HBM. está al menos 3 años por delante de Micron en términos de tecnología de producción en masa (Micron está estancada en HBM2e y Hynix lo producirá en masa a mediados de 2020).
El precio específico de HBM se mantiene en secreto, pero según los medios coreanos, HBM es actualmente entre 5 y 6 veces mayor que el de los productos DRAM existentes. El precio de la VRAM GDDR6 existente es de unos 3 dólares por GB, por lo que se estima que el precio de HBM ronda los 15 dólares por GB. Ese H100 SXM costó $1500 en HBM.
Aunque el precio de HBM sigue subiendo este año y los ejecutivos de Nvidia y Meta también acudieron a Hynix para "supervisar el trabajo", el HBM3 de Samsung se producirá en masa y se enviará gradualmente en la segunda mitad del año. HBM ya no será un cuello de botella.
El verdadero cuello de botella es el empaquetado CoWoS de TSMC, que es un proceso de empaquetado 2.5D. En comparación con el empaquetado 3D que perfora directamente agujeros (TSV) y cableado (RDL) en el chip, CoWoS puede proporcionar mejores costos, disipación de calor y ancho de banda de rendimiento. Los dos primeros corresponden a HBM y los dos últimos son la clave de la GPU.
Entonces, si desea un chip con alta capacidad de almacenamiento y alta potencia informática, CoWoS es la única solución en términos de empaque. El hecho de que las cuatro GPU de Nvidia y AMD utilicen CoWoS es la mejor prueba.
¿Cuánto cuesta CoWoS? El informe financiero de 22 años de TSMC reveló que el proceso CoWoS representó el 7% de los ingresos totales, por lo que el analista extranjero Robert Castellano calculó, basándose en la capacidad de producción y el tamaño del troquel desnudo, que empaquetar un chip de IA puede generarle a TSMC $723 en ingresos. [6] 。
Por lo tanto, sumando los tres costos más importantes mencionados anteriormente, el total es de aproximadamente 2500 dólares estadounidenses, de los cuales TSMC representa aproximadamente 1000 dólares estadounidenses (chip lógico + CoWoS), SK Hynix representa 1500 dólares estadounidenses (Samsung definitivamente se involucrará en el futuro), y también se incluyen PCB y otros materiales, el costo total del material no excede los 3.000 dólares estadounidenses.
¿Cuánto cuesta el H100? 35.000 dólares estadounidenses, basta con añadir un cero y la tasa de beneficio bruto supera el 90%. En los últimos 10 años, el margen de beneficio bruto de Nvidia ha sido de alrededor del 60%. Ahora impulsado por las A100/A800/H100 de alto margen, el margen de beneficio bruto de Nvidia en el segundo trimestre de este año ha alcanzado el 70%.
Esto es un poco contrario a la intuición: Nvidia depende en gran medida de la fundición de TSMC, cuyo estado es intocable, e incluso es el único vínculo central que puede estrangular a Nvidia. Pero por una tarjeta de 35.000 dólares, TSMC, que la fabrica, sólo puede obtener 1.000 dólares, y eso son sólo ingresos, no ganancias.
Sin embargo, utilizar el margen de beneficio bruto para definir enormes beneficios tiene poco sentido para las empresas de chips. Si partimos de la arena, el margen de beneficio bruto será mayor. TSMC vende a todo el mundo una oblea de 12 pulgadas fabricada con tecnología 4N por casi 15.000 dólares EE.UU. NVIDIA, naturalmente, tiene su conocimiento para añadir un precio de venta al público para venderla a los clientes.
El secreto de este truco es el siguiente: Nvidia es esencialmente una empresa de software que se hace pasar por un fabricante de hardware.
Un foso que integra software y hardware
El arma más poderosa de NVIDIA se esconde en el margen de beneficio bruto menos el margen de beneficio neto.
Antes de esta ronda de auge de la IA, el margen de beneficio bruto de Nvidia se mantenía en torno al 65% durante todo el año, mientras que su margen de beneficio neto solía ser sólo del 30%. En el segundo trimestre de este año, impulsado por el elevado beneficio bruto del A100/A800/H100, el margen de beneficio bruto se situó en el 70% y el margen de beneficio neto llegó al 45,81%.
Nvidia cuenta actualmente con más de 20.000 empleados en todo el mundo, la mayoría de los cuales son ingenieros de software y hardware bien remunerados. Según datos de Glassdoor, el salario medio anual para estos puestos es básicamente de más de 200.000 dólares al año.
En los últimos diez años, el valor absoluto de los gastos en I+D de NVIDIA ha mantenido un rápido crecimiento, y la tasa de gastos en I+D también se ha mantenido por encima del 20% en un estado estable. Por supuesto, si la demanda de terminales estalla en un año determinado, como el aprendizaje profundo en 2017, la minería en 2021 y los grandes modelos de lenguaje este año, el denominador de los ingresos aumenta repentinamente y la tasa de gastos en I+D caerá brevemente al 20%. En consecuencia, los beneficios también aumentarán de forma no lineal.
Entre los muchos proyectos desarrollados por NVIDIA, el más crítico es sin duda CUDA.
En 2003, para resolver el problema del umbral de programación de DirectX demasiado alto, el equipo de Ian Buck lanzó un modelo de programación llamado Brook, que también fue el prototipo de lo que más tarde la gente llamó CUDA. En 2006, Buck se unió a NVIDIA y convenció a Jen-Hsun Huang para que desarrollara CUDA. [8] 。
Debido a que admite la computación paralela en el entorno del lenguaje C, CUDA se ha convertido en la primera opción de los ingenieros y la GPU se ha embarcado en el camino de los procesadores de propósito general (GPGPU).
Después de que CUDA maduró gradualmente, Buck una vez más persuadió a Huang Renxun de que todas las GPU de Nvidia en el futuro deben admitir CUDA. El proyecto CUDA se estableció en 2006 y el producto se lanzó en 2007. En ese momento, los ingresos anuales de NVIDIA eran solo de 3 mil millones de dólares, pero gastó 500 millones de dólares en CUDA. En 2017, el gasto en I + D solo en CUDA había superado los 10 mil millones. .
Un director ejecutivo de una empresa de nube privada dijo una vez en una entrevista que no habían pensado en comprar tarjetas AMD, pero que les llevaría al menos dos meses depurar estas tarjetas para que funcionaran normalmente. [3] . Para acortar estos dos meses, Nvidia invirtió decenas de miles de millones y tardó 20 años.
La industria de los chips ha tenido altibajos durante más de medio siglo, y nunca ha habido una empresa como Nvidia que venda hardware y ecología, o en palabras de Huang Renxun: "Vende sistemas barebone". Por lo tanto, el objetivo de Nvidia no son los sabios en el campo de los chips, sino Apple, otra empresa que vende sistemas.
Desde el lanzamiento de CUDA en 2007 hasta convertirse en la fábrica de impresión de billetes más grande del mundo, Nvidia no está exenta de rivales.
En 2008, Intel, el rey de la industria de chips en ese momento, interrumpió su cooperación con Nvidia en el proyecto de gráficos integrados y lanzó su propio procesador de propósito general (GPCPU), con la intención de "traer un río y dominar" en el campo de las PC. . Sin embargo, en las iteraciones de productos de los años siguientes, Nvidia insistió en promover sus propios procesadores en áreas que requerían una mayor potencia informática, como el espacio, las finanzas y la biomedicina, por lo que, en 10 años, Intel no vio ninguna esperanza de suprimirlos y se vio obligada a cancelar el plan de tarjeta gráfica independiente.
En 2009, el equipo de desarrollo de Apple lanzó OpenCL, con la esperanza de obtener una parte del pastel de CUDA en virtud de su versatilidad. Sin embargo, OpenCL es muy inferior a CUDA en la ecología del aprendizaje profundo. Muchos marcos de aprendizaje admiten OpenCL después del lanzamiento de CUDA o no admiten OpenCL en absoluto. Como resultado, el retraso en el aprendizaje profundo ha hecho que OpenCL no pueda llegar a empresas de mayor valor agregado.
En 2015, AlphaGo comenzó a hacer su debut en el campo del Go, declarando que había llegado la era de la inteligencia artificial. En ese momento, para alcanzar el último tren, Intel colocó la GPU de AMD en su propio chip del sistema. Esta es la primera colaboración entre las dos empresas desde la década de 1980. Pero ahora el valor de mercado combinado del líder de CPU, el segundo hijo + el segundo GPU es solo 1/4 del líder de GPU Nvidia.
Desde la perspectiva actual, el foso de Nvidia es casi impenetrable. Aunque hay muchos grandes clientes que están desarrollando en secreto sus propias GPU, pero con su enorme ecosistema y su rápida iteración, estos grandes clientes no pueden husmear en las grietas del imperio, como lo demuestra Tesla. El negocio de máquinas de impresión de dinero de NVIDIA continuará en el futuro previsible.
Quizás el único lugar donde Huang Renxun está atormentado por nubes oscuras es el lugar donde hay muchos clientes y una fuerte demanda, pero el H100 no se puede vender, pero la gente está rechinando los dientes para abordar el problema: solo hay un lugar en el mundo. .
Referencias
[1] base crujiente
[2] "Todos y sus perros están comprando GPU", dice Musk mientras la startup de IA detalla el HARDWARE de Emerge-tom
[3] GPU Nvidia H100: oferta y demanda: utilidades de GPU
[4] La escasez de la cadena de suministro retrasa la bonanza de la IA en el sector tecnológico, FT
[5] Restricciones de capacidad de IA: CoWoS y cadena de suministro de HBM: DYLAN PATEL, MYRON XIE y GERALD WONG, semianálisis
[6] Taiwan Semiconductor: significativamente infravalorado como proveedor de chips y paquetes para Nvidia-Robert Castellano, buscando alfa
[7] Guerra de chips, Yu Sheng
[8] ¿Qué es CUDA? Programación paralela para GPU: Martin Heller, InfoWorld
[9] Guía del usuario de NVIDIA DGX H100