Fou H100

Original : Wang Yichuan

**Source :**Institut basé sur le silicium

Le 3 août 2023, Wall Street et la Silicon Valley ont présenté conjointement un événement majeur qui a choqué l'industrie : laisser une start-up obtenir 2,3 milliards de dollars de financement par emprunt, et la garantie est actuellement la monnaie la plus forte au monde - le H100. carte graphique.

Le protagoniste de ce grand événement s'appelle CoreWeave, et son activité principale est les services de cloud privé d'IA. En termes simples, il fournit une infrastructure de puissance de calcul aux startups d'IA et aux grands clients commerciaux en construisant un centre de données doté d'une grande puissance de calcul GPU. CoreWeave a levé un total de 580 millions de dollars américains et est actuellement dans le cycle B avec une valorisation de 2 milliards de dollars américains.

CoreWeave a été fondée en 2016 par trois négociants en matières premières de Wall Street. Au début, l'activité principale de l'entreprise n'était qu'une seule : l'exploitation minière, l'achat d'un grand nombre de GPU pour construire un centre de machines minières. Surtout lorsque le cercle monétaire était au plus bas, l'entreprise s'approvisionnait en un grand nombre de cartes graphiques. de manière anticyclique, et a ainsi établi une amitié révolutionnaire à toute épreuve avec Nvidia.

Trois co-fondateurs de CoreWeave

En 2019, CoreWeave a commencé à transformer ces machines minières en centres de données d'entreprise pour fournir aux clients des services cloud d'IA. L'entreprise était tiède au début, mais après la naissance de ChatGPT, la formation et l'inférence de grands modèles consomment beaucoup d'énergie. de puissance de calcul chaque jour. CoreWeave, qui possède déjà des dizaines de milliers de cartes graphiques (bien sûr, pas nécessairement le dernier modèle), a décollé en toute hâte, et la porte était pleine de clients et d'investisseurs en capital-risque.

Mais ce qui rend les gens étranges, c'est que CoreWeave n'a levé qu'un total de 580 millions de dollars américains, et la valeur nette du GPU sur le livre ne dépassera pas 1 milliard de dollars américains. Même la valorisation globale de l'entreprise n'est que de 2 milliards de dollars américains, mais Pourquoi peut-elle emprunter 2,3 milliards via des prêts hypothécaires ? Pourquoi Wall Street, qui a toujours été doué en calcul et désireux de réduire la valeur des garanties, est-il si généreux ?

La raison est la plus probable : bien que CoreWeave n'ait pas autant de cartes graphiques sur son compte, il a reçu un engagement de fourniture de Nvidia, notamment la H100.

La relation étroite entre CoreWeave et Nvidia est déjà un secret de polichinelle dans la Silicon Valley. Ce type de hardcore est enraciné dans la loyauté et le soutien indéfectibles de CoreWeave envers Nvidia - en utilisant uniquement des cartes Nvidia, en ne produisant résolument pas ses propres cœurs et en aidant Nvidia à stocker des cartes lorsque les cartes graphiques ne peuvent pas être vendues. Pour Huang, la valeur de cette relation dépasse de loin les amitiés plastiques avec Microsoft, Google et Tesla.

Ainsi, malgré la pénurie de Nvidia H100, Nvidia a alloué un grand nombre de nouvelles cartes à CoreWeave, et a même limité l'offre à de grands fabricants comme Amazon et Google. Huang Renxun a fait l'éloge lors de la conférence téléphonique : « Un nouveau groupe de fournisseurs de services cloud GPU va émerger, dont le plus célèbre est CoreWeave. Ils se portent très bien.

Une semaine avant l'investissement de 2,3 milliards de dollars, CoreWeave a annoncé qu'il dépenserait 1,6 milliard de dollars pour construire un centre de données de 42 000 mètres carrés au Texas. En s'appuyant uniquement sur sa relation avec Nvidia et ses droits de distribution prioritaires, CoreWeave peut emprunter de l'argent aux banques pour construire un centre de données - ce modèle n'est pas sans rappeler les promoteurs immobiliers qui recherchent immédiatement des prêts bancaires après avoir acquis un terrain.

On peut donc dire que l'engagement actuel de fourniture de H100 est comparable à un document d'approbation foncière à l'âge d'or de l'immobilier.

H100 est une carte difficile à trouver

Dans une interview en avril de cette année, Musk s'est plaint [2] : "Il semble que même les chiens achètent des GPU maintenant."

Ironiquement, Tesla a lancé sa puce D1 auto-développée dès 2021. Elle a été fabriquée par TSMC et a utilisé un processus de 7 nm, prétendant pouvoir remplacer l'A100 grand public de Nvidia à l'époque. Mais deux ans plus tard, Nvidia a lancé le H100, plus puissant, et le D1 de Tesla n'a pas eu d'itération ultérieure. Par conséquent, lorsque Musk a tenté de créer sa propre société d'intelligence artificielle, il a quand même dû s'agenouiller devant la porte de M. Huang et demander la permission. .

Le H100 a été officiellement lancé le 20 septembre de l'année dernière et est fabriqué selon le procédé TSMC 4N. Par rapport à son prédécesseur A100, la carte unique H100 améliore la vitesse d'inférence de 3,5 fois et la vitesse de formation de 2,3 fois. Si la méthode informatique en cluster de serveurs est utilisée, la vitesse de formation peut être augmentée jusqu'à 9 fois. La charge de travail initiale d'une semaine est Maintenant, cela ne prend que 20 heures.

Schéma architectural du GH100

Par rapport à l'A100, le prix d'une seule carte du H100 est plus cher, environ 1,5 à 2 fois celui de l'A100, mais l'efficacité de la formation des grands modèles a augmenté de 200 %, donc la « performance par dollar » est plus élevée. . Si elle est associée à la dernière solution de système de connexion haut débit de Nvidia, les performances du GPU par dollar peuvent être 4 à 5 fois supérieures, elles sont donc très recherchées par les clients.

Les clients se précipitant pour acheter du H100 sont principalement répartis en trois catégories :

La première catégorie regroupe les géants du cloud computing, tels que Microsoft Azure, Google GCP et Amazon AWS. Leur particularité est d'avoir des poches bien remplies et de vouloir « couvrir » la capacité de production de Nvidia à chaque instant. Cependant, chaque entreprise a aussi des intentions cachées : mécontentes de la position quasi-monopolistique de Nvidia, elles développent secrètement leurs propres puces pour réduire les coûts.

La deuxième catégorie concerne les fournisseurs de services GPU cloud indépendants. Les entreprises typiques incluent CoreWeave, Lambda, RunPod, etc., mentionnées ci-dessus. Ce type d'entreprise a une puissance de calcul relativement faible, mais peut fournir des services différenciés. Nvidia soutient également fortement ce type d'entreprise, et investit même directement dans CoreWeave et Lambda. L'objectif est très clair : fournir des services aux géants qui construisent des cœurs. en privé. Appliquez des gouttes pour les yeux.

La troisième catégorie est constituée des grandes et petites entreprises qui forment le LLM (Large Language Model). Il comprend des startups comme Anthropic, Inflection et Midjourney, ainsi que des géants de la technologie comme Apple, Tesla et Meta. Ils utilisent généralement la puissance de calcul de fournisseurs de services cloud externes tout en achetant leurs propres GPU pour construire leurs propres poêles : ceux qui ont de l'argent achètent plus, ceux qui n'ont pas d'argent achètent moins, et l'objectif principal est de permettre aux gens d'être riches et économes.

Parmi ces trois types de clients, Microsoft Azure compte au moins 50 000 H100, Google environ 30 000 H100, Oracle en compte environ 20 000 et Tesla et Amazon en possèdent également au moins environ 10 000. CoreWeave aurait un engagement de quota de 35 000 (le nombre réel de clients). la livraison est d'environ 10 000). Peu d’autres compagnies proposent plus de 10 000 billets.

De combien de H100 ces trois types de clients ont-ils besoin au total ? Selon les prévisions de l'organisation étrangère GPU Utils, la demande actuelle pour le H100 est d'environ 432 000 unités. Parmi eux, OpenAI nécessite 50 000 images pour entraîner GPT-5, Inflection nécessite 22 000 images et Meta nécessite 25 000 images (certains disent 100 000 images). Chacun des quatre principaux fournisseurs de cloud public nécessite au moins 30 000 images. 100 000 pièces, et d'autres fabricants de petits modèles ont également une demande de 100 000 pièces. [3] 。

Les expéditions de cartes H100 de Nvidia s'élèveront à environ 500 000 unités en 2023. Actuellement, la capacité de production de TSMC continue d'augmenter et d'ici la fin de l'année, la situation difficile des cartes H100 sera atténuée.

Mais à long terme, l’écart entre l’offre et la demande de H100 continuera de se creuser avec l’explosion des applications AIGC. Selon le Financial Times, les expéditions de H100 en 2024 atteindront entre 1,5 et 2 millions de feuilles, soit une augmentation de 3 à 4 fois par rapport aux 500 000 feuilles de cette année. [4] 。

Les prévisions de Wall Street sont encore plus radicales : la banque d'investissement américaine Piper Sandler estime que les revenus des centres de données de Nvidia dépasseront 60 milliards de dollars l'année prochaine (24T2 : 10,32 milliards de dollars). Sur la base de ces données, le volume des expéditions de cartes A+H est proche de 3 million.

Il existe des estimations encore plus exagérées. Une certaine plus grande fonderie de serveurs H100 (avec une part de marché de 70 à 80 %) expédie des serveurs H100 depuis juin de cette année et sa capacité de production a continué d'augmenter en juillet. Une enquête récente montre que la fonderie estime que le volume des expéditions de cartes A+H en 2024 se situera entre 4,5 millions et 5 millions.

Cela signifie une « richesse énorme » pour Nvidia, car les énormes profits du H100 sont inimaginables pour les gens d’autres secteurs.

Les cartes graphiques plus chères que l'or

Afin de connaître la rentabilité du H100, autant démonter complètement sa nomenclature (BOM).

Comme le montre la figure, le H100 SXM, la version la plus courante du H100, adopte un boîtier à 7 puces TSMC CoWoS, et six puces HBM3 16G sont disposées en deux rangées entourant étroitement la puce logique au milieu.

Cela constitue également les trois parties les plus importantes du H100 : la puce logique, la puce mémoire HBM, le package CoWoS. De plus, il existe également des composants auxiliaires tels que des cartes PCB et d'autres composants auxiliaires, mais leur valeur n'est pas élevée.

Schéma de démontage H100

La taille de la puce logique de base est de 814 mm ^ 2, produite dans l'usine Tainan n ° 18 la plus avancée de TSMC, et le nœud de processus utilisé est "4N". Bien que le nom commence par 4, il est en réalité de 5 nm +. En raison de la faible prospérité en aval du 5 nm, des téléphones mobiles et d'autres domaines, TSMC n'a aucun problème à garantir la fourniture de puces logiques.

Et cette puce logique est produite en découpant une tranche de 12" (surface 70,695 mm^2). Idéalement, 86 pièces peuvent être découpées, mais compte tenu du taux de rendement de 80 % et de la perte de découpe de la ligne "4N", la dernière Seules 65 puces logiques principales peuvent être découpées dans une plaquette de 12 pouces.

Combien coûte cette puce logique de base ? Le devis externe de TSMC pour une plaquette de 12 pouces en 2023 est de 13 400 $ US, donc converti en une seule unité, il coûtera environ 200 $ US.

Viennent ensuite 6 puces HBM3, actuellement fournies exclusivement par SK Hynix, une société issue de l'électronique moderne qui s'est presque engagée dans Micron en 2002. Grâce à la stratégie gouvernementale de transfusion sanguine et de capacité de production contracyclique, elle fait désormais partie du groupe IT de HBM. a au moins 3 ans d'avance sur Micron en termes de technologie de production de masse (Micron est bloqué dans HBM2e et Hynix le produira en masse à la mi-2020).

Le prix spécifique du HBM est gardé secret, mais selon les médias coréens, le prix du HBM est actuellement 5 à 6 fois supérieur à celui des produits DRAM existants. Le prix de la VRAM GDDR6 existante est d'environ 3 dollars par Go, le prix du HBM est donc estimé à environ 15 dollars par Go. Ce H100 SXM coûte 1 500 $ sur HBM.

Bien que le prix du HBM continue d'augmenter cette année et que les dirigeants de Nvidia et Meta se soient également rendus chez Hynix pour « superviser les travaux », le HBM3 de Samsung sera progressivement produit en série et expédié au cours du second semestre. du sang ancestral du duo coréen, cela doit être D'ici l'année prochaine, HBM ne sera plus un goulot d'étranglement.

Le véritable goulot d'étranglement est le packaging CoWoS de TSMC, qui est un processus de packaging 2.5D. Par rapport au packaging 3D du perçage (TSV) et du câblage (RDL) directement sur la puce, CoWoS peut offrir un meilleur coût, une meilleure dissipation de la chaleur et une meilleure bande passante de débit. Les deux premiers correspondent au HBM et les deux derniers sont la clé du GPU.

Donc si vous souhaitez une puce avec une capacité de stockage élevée et une puissance de calcul élevée, CoWoS est la seule solution en termes de packaging. Le fait que les quatre GPU de Nvidia et AMD utilisent CoWoS en est la meilleure preuve.

Combien coûte CoWoS ? Le rapport financier de TSMC sur 22 ans a révélé que le processus CoWoS représentait 7 % du chiffre d'affaires total. L'analyste étranger Robert Castellano a donc calculé, en fonction de la capacité de production et de la taille de la puce nue, que le conditionnement d'une puce IA peut rapporter 723 $ de revenus à TSMC. [6] 。

Par conséquent, en additionnant les trois éléments de coût les plus importants ci-dessus, le total est d'environ 2 500 $ US, dont TSMC représente environ 1 000 $ US (puce logique + CoWoS), SK Hynix représente 1 500 $ US (Samsung sera certainement impliqué à l'avenir), et les PCB sont également inclus. Et d'autres matériaux, le coût global des matériaux ne dépasse pas 3 000 dollars américains.

Combien coûte le H100 ? 35 000 dollars américains, il suffit d'ajouter un zéro, et le taux de marge brute dépasse 90 %. Au cours des 10 dernières années, la marge bénéficiaire brute de Nvidia a été d'environ 60 %. Désormais tirée par les A100/A800/H100 à forte marge, la marge bénéficiaire brute de Nvidia au deuxième trimestre de cette année a atteint 70 %.

C'est un peu contre-intuitif : Nvidia s'appuie fortement sur la fonderie de TSMC, dont le statut est intouchable, et est même le seul maillon central qui peut étouffer le cou de Nvidia. Mais pour une telle carte de 35 000 $, TSMC, qui la fabrique, ne peut obtenir que 1 000 $, et ce ne sont que des revenus, pas des bénéfices.

Cependant, utiliser la marge bénéficiaire brute pour définir les profits énormes n'a pas beaucoup de sens pour les entreprises de puces : si nous partons du sable, la marge bénéficiaire brute sera plus élevée. Une plaquette de 12 pouces fabriquée à partir de la technologie 4N est vendue par TSMC à tout le monde pour près de 15 000 dollars américains. NVIDIA a naturellement son savoir-faire dans l'ajout d'un prix de détail pour la vendre aux clients.

Le secret de cette astuce est le suivant : Nvidia est essentiellement un éditeur de logiciels se faisant passer pour un fabricant de matériel.

Un fossé intégrant logiciel et matériel

L'arme la plus puissante de Nvidia se cache dans la partie de la marge bénéficiaire brute moins la marge bénéficiaire nette.

Avant ce boom de l'IA, la marge bénéficiaire brute de Nvidia restait autour de 65 % toute l'année, alors que sa marge bénéficiaire nette n'était généralement que de 30 %. Au deuxième trimestre de cette année, grâce au bénéfice brut élevé A100/A800/H100, la marge bénéficiaire brute s'est élevée à 70 % et la marge bénéficiaire nette a atteint 45,81 %.

Marge bénéficiaire brute et marge bénéficiaire nette de NVIDIA sur un seul trimestre au cours des trois derniers exercices

Nvidia compte actuellement plus de 20 000 employés dans le monde, dont la plupart sont des ingénieurs logiciels et matériels hautement rémunérés. Selon les données de Glassdoor, le salaire annuel moyen pour ces postes est essentiellement supérieur à 200 000 dollars par an.

Taux des dépenses de R&D NVIDIA sur les dix derniers exercices

Au cours des dix dernières années, la valeur absolue des dépenses de R&D de NVIDIA a maintenu une croissance rapide, et le taux de dépenses de R&D est également resté supérieur à 20 % dans un état stable. Bien entendu, si la demande de terminaux éclate au cours d'une certaine année, comme par exemple l'apprentissage profond en 2017, l'exploitation minière en 2021 et les grands modèles de langage cette année, le dénominateur des revenus augmente soudainement et le taux de dépenses en R&D tombe brièvement à 20 %. En conséquence, les bénéfices augmenteront également de manière non linéaire.

Parmi les nombreux projets développés par NVIDIA, le plus critique est sans aucun doute CUDA.

En 2003, afin de résoudre le problème du seuil de programmation DirectX trop élevé, l'équipe de Ian Buck a lancé un modèle de programmation appelé Brook, qui était également le prototype de ce que l'on appellera plus tard CUDA. En 2006, Buck rejoint NVIDIA et persuade Jen-Hsun Huang de développer CUDA. [8] 。

Parce qu'il prend en charge le calcul parallèle dans l'environnement du langage C, CUDA est devenu le premier choix des ingénieurs et le GPU s'est lancé sur la voie des processeurs à usage général (GPGPU).

Après que CUDA ait progressivement mûri, Buck a de nouveau persuadé Huang Renxun que tous les futurs GPU NVIDIA doivent prendre en charge CUDA. Le projet CUDA a été lancé en 2006 et le produit a été lancé en 2007. À cette époque, le chiffre d'affaires annuel de NVIDIA n'était que de 3 milliards de dollars américains, mais la société dépensait 500 millions de dollars américains pour CUDA. En 2017, les dépenses de R&D pour CUDA à elles seules avaient dépassé 10 milliards.

Le PDG d'une société de cloud privé a déclaré un jour dans une interview qu'il n'envisageait pas de passer aux cartes AMD, mais qu'il faudrait au moins deux mois pour déboguer ces cartes et les rendre opérationnelles normalement. [3] . Afin de raccourcir ces deux mois, Nvidia a investi des dizaines de milliards et a mis 20 ans.

L'industrie des puces connaît des hauts et des bas depuis plus d'un demi-siècle, mais aucune entreprise comme NVIDIA ne vend à la fois du matériel et de l'écosystème, ou selon les mots de Huang Renxun : « elle vend des systèmes barebones ». Par conséquent, la cible de Nvidia n'est effectivement pas les sages du domaine des puces, mais Apple, une autre société qui vend des systèmes.

Depuis le lancement de CUDA en 2007 jusqu'à devenir la plus grande usine d'impression d'argent au monde, NVIDIA n'est pas sans adversaires.

En 2008, Intel, alors roi des puces, a interrompu la coopération avec Nvidia sur le projet d'affichage intégré et a lancé son propre processeur à usage général (GPCPU), avec l'intention de « dominer le fleuve » dans le domaine des PC. Cependant, au cours des années suivantes, Nvidia a insisté pour promouvoir ses propres processeurs dans des domaines nécessitant des capacités informatiques plus puissantes, comme l'espace, la finance et la biomédecine. Par conséquent, Intel a été contraint d'annuler le projet de carte graphique indépendante dans 10 ans. car il ne voyait aucun espoir de le supprimer.

En 2009, l'équipe de développement d'Apple a lancé OpenCL, dans l'espoir d'obtenir une part du gâteau de CUDA grâce à sa polyvalence. Cependant, OpenCL est bien inférieur à CUDA dans l'écologie de l'apprentissage profond. De nombreux frameworks d'apprentissage prennent en charge OpenCL après la sortie de CUDA, ou ne prennent pas en charge OpenCL du tout. En conséquence, OpenCL a pris du retard en matière d’apprentissage profond et n’a pas pu toucher les entreprises à plus forte valeur ajoutée.

En 2015, AlphaGo a commencé à montrer son importance dans le domaine du Go, annonçant que l'ère de l'intelligence artificielle était arrivée. À cette époque, afin de rattraper le dernier bus, Intel a installé le GPU d'AMD dans sa propre puce système. Il s'agit de la première collaboration entre les deux sociétés depuis les années 1980. Mais maintenant, la valeur marchande combinée du leader des CPU, du deuxième leader et du leader des GPU ne représente que 1/4 de celle du leader des GPU Nvidia.

Du point de vue actuel, les douves de Nvidia sont presque impénétrables. Même s'il existe de nombreux gros clients qui développent secrètement leurs propres GPU, mais avec leur énorme écosystème et leurs itérations rapides, ces gros clients sont incapables de creuser les fissures de l'empire, comme Tesla en est la preuve. L'activité de machines à imprimer de l'argent de NVIDIA se poursuivra dans un avenir prévisible.

Peut-être que le seul endroit où Huang Renxun est hanté par des nuages sombres est l'endroit où il y a de nombreux clients et une forte demande, mais le H100 ne peut pas être vendu, mais les gens grincent des dents pour s'attaquer au problème - il n'y a qu'un seul endroit dans le monde .

Les références

[1] Base Crunch

[2] "Tout le monde et son chien achètent des GPU", déclare Musk alors que la startup d'IA détaille Emerge-tom's HARDWARE

[3] GPU Nvidia H100 : utilisations de l'offre et de la demande pour les GPU

[4] Les pénuries dans la chaîne d'approvisionnement retardent la manne de l'IA du secteur technologique,FT

[5] Contraintes de capacité en IA - CoWoS et chaîne d'approvisionnement HBM-DYLAN PATEL, MYRON XIE ET GERALD WONG,Semianalysis

[6] Taiwan Semiconductor : considérablement sous-évalué en tant que fournisseur de puces et de packages de Nvidia-Robert Castellano, à la recherche d'Alpha

[7] Guerres de puces, Yu Sheng

[8] Qu’est-ce que CUDA ? Programmation parallèle pour les GPU-Martin Heller,InfoWorld

[9] Guide de l'utilisateur du NVIDIA DGX H100

Voir l'original
Le contenu est fourni à titre de référence uniquement, il ne s'agit pas d'une sollicitation ou d'une offre. Aucun conseil en investissement, fiscalité ou juridique n'est fourni. Consultez l'Avertissement pour plus de détails sur les risques.
  • Récompense
  • Commentaire
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)