H100 gila

Asli: Wang Yichuan

**Sumber:**Masyarakat Riset Silikon

Pada tanggal 3 Agustus 2023, Wall Street dan Silicon Valley bersama-sama menghadirkan peristiwa besar yang mengejutkan industri: memungkinkan perusahaan rintisan memperoleh pembiayaan utang sebesar US$2,3 miliar, dan jaminannya adalah mata uang tersulit di dunia-kartu grafis H100.

Protagonis dari acara besar ini disebut CoreWeave. Bisnis utamanya adalah layanan cloud pribadi AI. Sederhananya, ia menyediakan infrastruktur komputasi untuk startup AI dan pelanggan komersial besar dengan membangun pusat data dengan daya komputasi GPU yang besar. CoreWeave telah mengumpulkan total US$580 juta dan saat ini berada di Seri B dengan valuasi US$2 miliar.

CoreWeave didirikan pada tahun 2016 oleh tiga pedagang komoditas Wall Street. Pada awalnya, bisnis utama perusahaan hanya satu: menambang, membeli GPU dalam jumlah besar untuk membangun pusat mesin penambangan, terutama ketika lingkaran mata uang sedang surut, perusahaan akan menimbun kartu grafis dalam jumlah besar. secara kontra-siklus, dan dengan demikian menjalin persahabatan revolusioner yang kuat dengan Nvidia.

Tiga salah satu pendiri CoreWeave

Pada tahun 2019, CoreWeave mulai mengubah mesin penambangan ini menjadi pusat data tingkat perusahaan untuk menyediakan layanan cloud AI kepada pelanggan.Bisnis ini awalnya kurang berkembang, tetapi setelah lahirnya ChatGPT, pelatihan dan inferensi model besar menghabiskan banyak waktu. daya komputasi setiap hari CoreWeave, yang telah memiliki puluhan ribu kartu grafis (tentu saja, belum tentu model terbaru), berkembang pesat, dan pintunya dipenuhi pelanggan dan investor modal ventura.

Namun yang membuat orang merasa aneh adalah CoreWeave baru mengumpulkan total 580 juta dollar AS, dan nilai bersih GPU-nya tidak akan melebihi 1 miliar dollar AS.Bahkan valuasi perusahaan secara keseluruhan hanya 2 miliar dollar AS, tapi kenapa bisa mereka meminjam 2,3 miliar dolar AS melalui hipotek? Bagaimana dengan dolar? Mengapa Wall Street, yang selalu pandai berhitung dan ingin memangkas nilai agunan, begitu murah hati?

Alasannya kemungkinan besar: Meskipun CoreWeave tidak memiliki begitu banyak kartu grafis, namun telah mendapat komitmen pasokan dari Nvidia, khususnya H100.

Hubungan dekat CoreWeave dengan Nvidia sudah menjadi rahasia umum di Silicon Valley. Jenis hardcore ini berakar pada kesetiaan dan dukungan CoreWeave yang tak tergoyahkan terhadap Nvidia - hanya menggunakan kartu Nvidia, dengan tegas tidak membuat intinya sendiri, dan membantu Nvidia menimbun kartu ketika kartu grafis tidak dapat dijual. Bagi Huang Renxun, manfaat emas dari hubungan ini jauh melebihi persahabatan plastik dengan Microsoft, Google, dan Tesla.

Oleh karena itu, meskipun ada kekurangan Nvidia H100, Nvidia telah mengalokasikan sejumlah besar kartu baru ke CoreWeave, bahkan dengan mengorbankan pasokan ke produsen besar seperti Amazon dan Google. Huang Renxun memuji selama panggilan konferensi: "Sekelompok penyedia layanan cloud GPU baru akan muncul, yang paling terkenal adalah CoreWeave. Mereka melakukannya dengan sangat baik."

Seminggu sebelum Xi mengumpulkan $2,3 miliar, CoreWeave mengumumkan bahwa mereka akan menghabiskan $1,6 miliar untuk membangun pusat data seluas 42,000 meter persegi di Texas. Hanya mengandalkan hubungan dengan Nvidia dan hak distribusi prioritas, CoreWeave dapat meminjam uang dari bank untuk membangun pusat data-model ini mengingatkan masyarakat pada pengembang real estat yang segera mencari pinjaman bank setelah memperoleh tanah.

Jadi dapat dikatakan bahwa komitmen pasokan H100 saat ini sebanding dengan persetujuan sebidang tanah di masa keemasan real estate.

Sulit menemukan H100

Dalam sebuah wawancara pada bulan April tahun ini, Musk mengeluh [2] : “Sepertinya anjing pun kini membeli GPU.”

Ironisnya, Tesla merilis chip D1 yang dikembangkan sendiri pada awal tahun 2021. Chip tersebut diproduksi oleh TSMC dan menggunakan proses 7nm, mengklaim mampu menggantikan A100 mainstream Nvidia pada saat itu. Namun 2 tahun kemudian, Nvidia meluncurkan H100 yang lebih bertenaga, dan D1 Tesla tidak memiliki iterasi berikutnya.Oleh karena itu, ketika Musk mencoba membentuk perusahaan kecerdasan buatannya sendiri, dia masih harus berlutut di depan pintu rumah Tuan Huang dan meminta izin. .

H100 resmi diluncurkan pada 20 September tahun lalu, diproduksi dengan proses 4N TSMC. Dibandingkan dengan pendahulunya A100, kartu tunggal H100 meningkatkan kecepatan inferensi sebesar 3,5 kali lipat dan kecepatan pelatihan sebesar 2,3 kali lipat. Jika metode komputasi cluster server digunakan, kecepatan pelatihan dapat ditingkatkan hingga 9 kali lipat. Beban kerja asli satu minggu adalah Sekarang hanya membutuhkan waktu 20 jam.

Diagram Arsitektur GH100

Dibandingkan dengan A100, harga satu kartu H100 lebih mahal, sekitar 1,5 hingga 2 kali lipat dari A100, namun efisiensi pelatihan model besar telah meningkat sebesar 200%, sehingga "kinerja satu dolar" dihitung dengan perhitungan ini lebih tinggi. Jika dipasangkan dengan solusi sistem koneksi berkecepatan tinggi terbaru dari Nvidia, kinerja GPU per dolar mungkin 4-5 kali lebih tinggi, sehingga sangat dicari oleh pelanggan.

Pelanggan yang terburu-buru membeli H100 terutama dibagi menjadi tiga kategori:

Kategori pertama adalah raksasa komputasi awan yang komprehensif, seperti Microsoft Azure, Google GCP, dan Amazon AWS. Ciri khas mereka adalah berkantong tebal dan ingin "menutupi" kapasitas produksi Nvidia di setiap kesempatan. Namun, masing-masing perusahaan juga punya agenda tersembunyi. Mereka tidak puas dengan posisi hampir monopoli Nvidia dan diam-diam mengembangkan chip sendiri untuk menekan biaya.

Kategori kedua adalah penyedia layanan GPU cloud independen, perusahaan tipikal seperti CoreWeave yang disebutkan di atas, serta Lambda, RunPod, dll. Perusahaan jenis ini memiliki daya komputasi yang relatif kecil, namun dapat memberikan layanan yang berbeda. Nvidia juga sangat mendukung perusahaan jenis ini, bahkan berinvestasi langsung di CoreWeave dan Lambda. Tujuannya sangat jelas: memberikan layanan kepada raksasa yang membangun inti secara pribadi, pakai obat tetes mata.

Kategori ketiga adalah perusahaan besar dan kecil yang melatih sendiri LLM (model bahasa besar). Mereka termasuk startup seperti Anthropic, Inflection, dan Midjourney, serta raksasa teknologi seperti Apple, Tesla, dan Meta. Mereka biasanya menggunakan kekuatan komputasi penyedia layanan cloud eksternal sambil membeli GPU mereka sendiri untuk membuat kompor mereka sendiri - mereka yang punya uang membeli lebih banyak, mereka yang tidak punya uang membeli lebih sedikit, dan tujuan utamanya adalah membuat orang kaya dan berhemat.

Di antara ketiga jenis pelanggan ini, Microsoft Azure memiliki setidaknya 50.000 H100, Google memiliki sekitar 30.000, Oracle memiliki sekitar 20.000, dan Tesla dan Amazon memiliki setidaknya 10.000. CoreWeave dilaporkan memiliki komitmen sebanyak 35.000 eksemplar (pengiriman sebenarnya sekitar 10.000) . Hanya sedikit perusahaan lain yang memiliki lebih dari 10.000 tiket.

Berapa total H100 yang dibutuhkan ketiga jenis pelanggan ini? Menurut prediksi dari organisasi luar negeri GPU Utils, permintaan H100 saat ini adalah sekitar 432.000. Diantaranya, OpenAI membutuhkan 50.000 lembar untuk melatih GPT-5, Infleksi membutuhkan 22.000 lembar, Meta membutuhkan 25.000 lembar (ada yang bilang 100.000 lembar), dan masing-masing dari empat vendor cloud publik besar membutuhkan setidaknya 30.000 lembar, yaitu 100.000 lembar, dan produsen model kecil lainnya juga memiliki permintaan 100.000 buah. [3] 。

Pengiriman H100 NVIDIA pada tahun 2023 sekitar 500.000 unit, saat ini kapasitas produksi TSMC masih terus meningkat, hingga akhir tahun kesulitan mencari kartu H100 akan teratasi.

Namun dalam jangka panjang, kesenjangan pasokan dan permintaan H100 akan terus meningkat seiring dengan maraknya aplikasi AIGC. Menurut Financial Times, pengiriman H100 akan mencapai 1,5 juta hingga 2 juta lembar pada tahun 2024, meningkat 3-4 kali lipat dibandingkan tahun ini sebanyak 500.000 lembar. [4] 。

Prediksi Wall Street bahkan lebih radikal: bank investasi AS Piper Sandler percaya bahwa pendapatan pusat data Nvidia akan melebihi US$60 miliar tahun depan (FY24Q2: US$10,32 miliar). Berdasarkan data ini, volume pengiriman kartu A+H Mendekati 3 juta.

Bahkan ada perkiraan yang lebih berlebihan lagi. Pabrikan server H100 terbesar (dengan pangsa pasar 70%-80%) telah mengirimkan server H100 sejak Juni tahun ini, dan kapasitas produksinya meningkat secara bertahap pada bulan Juli. Menurut survei baru-baru ini, pihak pengecoran yakin bahwa pengiriman kartu A+H pada tahun 2024 akan berjumlah antara 4,5 juta dan 5 juta.

Ini berarti "kekayaan luar biasa" bagi Nvidia, karena keuntungan besar dari H100 tidak terbayangkan oleh orang-orang di industri lain.

Kartu grafis lebih mahal dari emas

Untuk memahami seberapa menguntungkan H100, sebaiknya kita membongkar bill of material (BOM)-nya.

Seperti yang ditunjukkan pada gambar, versi paling serbaguna dari H100, H100 SXM, menggunakan paket CoWoS 7-die TSMC.Enam chip HBM3 16G disusun dalam dua baris yang mengelilingi chip logika tengah.

Dan ini juga merupakan tiga bagian terpenting dari H100: chip logika, chip memori HBM, paket CoWoS, selain itu, ada beberapa perangkat tambahan seperti papan PCB dan lain-lain, tetapi nilainya tidak tinggi.

Diagram Pembongkaran H100

Ukuran chip logika inti adalah 814mm^2, diproduksi di pabrik No.18 tercanggih TSMC di Tainan, dan node proses yang digunakan adalah "4N" Meskipun namanya dimulai dengan 4, sebenarnya 5nm+. Karena buruknya kemakmuran di sektor hilir 5nm, seperti ponsel, TSMC tidak memiliki masalah dalam memastikan pasokan chip logika.

Dan chip logika ini diproduksi dengan memotong wafer berukuran 12 inci (luas 70.695mm^2). Idealnya, 86 buah dapat dipotong, tetapi mengingat tingkat hasil 80% dan kehilangan garis "4N", yang terakhir Hanya 65 chip logika inti yang dapat dipotong dari wafer 12 inci.

Berapa harga chip logika inti ini? Harga eksternal TSMC untuk wafer 12 inci pada tahun 2023 adalah US$13,400, jadi jika dikonversi ke satu unit, biayanya sekitar US$200.

Berikutnya adalah 6 buah chip HBM3 yang saat ini dipasok secara eksklusif oleh SK Hynix.Perusahaan yang bermula dari elektronik modern ini hampir berkomitmen pada Micron pada tahun 2002. Dengan strategi kapasitas produksi transfusi darah dan counter-cyclical pemerintah, kini berada di IT HBM. setidaknya 3 tahun lebih maju dari Micron dalam hal teknologi produksi massal (Micron terjebak di HBM2e dan Hynix akan memproduksinya secara massal pada pertengahan tahun 2020).

Harga spesifik HBM dirahasiakan oleh masing-masing perusahaan, namun menurut media Korea, harga HBM saat ini 5-6 kali lipat dari produk DRAM yang ada. Harga VRAM GDDR6 yang ada saat ini sekitar US$3 per GB, sehingga harga HBM diperkirakan sekitar US$15 per GB. H100 SXM itu berharga $1.500 di HBM.

Meskipun harga HBM terus meningkat tahun ini, dan para eksekutif Nvidia dan Meta juga pergi ke Hynix untuk "mengawasi pekerjaan", HBM3 Samsung akan diproduksi secara massal dan dikirimkan secara bertahap pada paruh kedua tahun ini. HBM tidak lagi menjadi hambatan.

Hambatan sebenarnya adalah pengemasan CoWoS TSMC, yang merupakan proses pengemasan 2.5D. Dibandingkan dengan kemasan 3D pengeboran (TSV) dan pengkabelan (RDL) langsung pada chip, CoWoS dapat memberikan biaya, pembuangan panas, dan bandwidth throughput yang lebih baik.Dua yang pertama berhubungan dengan HBM, dan dua yang terakhir adalah kunci untuk GPU.

Jadi jika Anda menginginkan chip dengan kapasitas penyimpanan tinggi dan daya komputasi tinggi, CoWoS adalah satu-satunya solusi dari segi pengemasan. Fakta bahwa keempat GPU dari Nvidia dan AMD menggunakan CoWoS adalah bukti terbaiknya.

Berapa biaya CoWoS? Laporan keuangan TSMC tahun 2022 mengungkapkan bahwa proses CoWoS menyumbang 7% dari total pendapatan, sehingga analis luar negeri Robert Castellano menghitung berdasarkan kapasitas produksi dan ukuran cetakan bahwa mengemas chip AI dapat menghasilkan pendapatan sebesar $723 bagi TSMC. [6] 。

Oleh karena itu, jika dijumlahkan tiga item biaya terbesar di atas, totalnya sekitar US$2.500, di mana TSMC menyumbang sekitar US$1.000 (chip logika + CoWoS), SK Hynix menyumbang US$1.500 (Samsung pasti akan terlibat di masa depan), dan PCB juga disertakan dan bahan lainnya, biaya bahan keseluruhan tidak melebihi US$3.000.

Berapa harga H100? 35.000 dolar AS, tambahkan saja nol, dan tingkat laba kotor melebihi 90%. Dalam 10 tahun terakhir, margin laba kotor Nvidia berada di sekitar 60%, kini didorong oleh tingginya margin A100/A800/H100, margin laba kotor Nvidia Q2 tahun ini telah mencapai 70%.

Ini agak kontra-intuitif: Nvidia sangat bergantung pada pengecoran TSMC, yang statusnya tidak dapat disentuh, dan bahkan merupakan satu-satunya penghubung inti yang dapat mencekik leher Nvidia. Tapi untuk kartu seharga $35.000, TSMC yang membuatnya hanya bisa mendapatkan $1.000, dan itu hanya pendapatan, bukan keuntungan.

Namun, penggunaan margin laba kotor untuk menentukan keuntungan yang besar tidak ada artinya bagi perusahaan chip, jika kita mulai dari pasir, margin laba kotor akan lebih tinggi. Wafer 12 inci yang terbuat dari teknologi 4N dijual oleh TSMC kepada semua orang dengan harga hampir US$15.000.NVIDIA tentu saja memiliki keahliannya dalam menambahkan harga eceran untuk menjualnya kepada pelanggan.

Rahasia triknya: Nvidia pada dasarnya adalah perusahaan perangkat lunak yang menyamar sebagai pembuat perangkat keras.

Parit lunak dan keras

Senjata paling ampuh NVIDIA tersembunyi pada margin laba kotor dikurangi margin laba bersih.

Sebelum ledakan AI ini, margin laba kotor Nvidia tetap sekitar 65% sepanjang tahun, sementara margin laba bersihnya biasanya hanya 30%. Pada Q2 tahun ini, didorong oleh tingginya laba kotor A100/A800/H100, margin laba kotor mencapai 70%, dan margin laba bersih mencapai 45,81%.

Margin laba kotor satu kuartal dan margin laba bersih NVIDIA dalam tiga tahun fiskal terakhir

Nvidia saat ini memiliki lebih dari 20.000 karyawan di seluruh dunia, sebagian besar adalah insinyur perangkat lunak dan perangkat keras bergaji tinggi.Menurut data Glassdoor, gaji tahunan rata-rata untuk posisi ini pada dasarnya lebih tinggi dari 200.000 dolar AS per tahun.

Rasio biaya penelitian dan pengembangan Nvidia dalam sepuluh tahun fiskal terakhir

Dalam sepuluh tahun terakhir, nilai absolut pengeluaran penelitian dan pengembangan NVIDIA terus mengalami pertumbuhan pesat, dan tingkat pengeluaran penelitian dan pengembangan juga tetap berada di atas 20% dalam kondisi stabil. Tentu saja, jika permintaan terminal meningkat pada tahun tertentu, seperti pembelajaran mendalam pada tahun 2017, penambangan pada tahun 2021, dan model bahasa besar tahun ini, penyebut pendapatan tiba-tiba meningkat, dan tingkat biaya penelitian dan pengembangan akan turun sebentar menjadi 20%. Sejalan dengan itu, Keuntungan juga akan meningkat secara non-linear.

Yang paling kritis dari sekian banyak proyek yang dikembangkan oleh Nvidia tidak diragukan lagi adalah CUDA.

Pada tahun 2003, untuk mengatasi masalah ambang batas pemrograman DirectX yang terlalu tinggi, tim Ian Buck meluncurkan model pemrograman yang disebut Brook, yang juga merupakan prototipe dari apa yang kemudian disebut CUDA. Pada tahun 2006, Buck bergabung dengan NVIDIA dan membujuk Jen-Hsun Huang untuk mengembangkan CUDA. [8] 。

Karena mendukung komputasi paralel dalam lingkungan bahasa C, CUDA telah menjadi pilihan pertama para insinyur, dan GPU telah memulai jalur prosesor tujuan umum (GPGPU).

Setelah CUDA berangsur-angsur matang, Buck sekali lagi meyakinkan Huang Renxun bahwa semua GPU NVIDIA masa depan harus mendukung CUDA. Proyek CUDA didirikan pada tahun 2006 dan produknya diluncurkan pada tahun 2007. Saat itu, pendapatan tahunan NVIDIA hanya US$3 miliar, tetapi menghabiskan US$500 juta untuk CUDA.Pada tahun 2017, pengeluaran penelitian dan pengembangan untuk CUDA saja telah melebihi 10 miliar .

Seorang CEO dari sebuah perusahaan cloud swasta pernah mengatakan dalam sebuah wawancara bahwa mereka belum berpikir untuk membeli kartu AMD, tetapi akan memakan waktu setidaknya dua bulan untuk men-debug kartu-kartu tersebut agar berfungsi normal. [3] . Untuk mempersingkat dua bulan ini, Nvidia menginvestasikan puluhan miliar dan menghabiskan waktu 20 tahun.

Industri chip telah mengalami pasang surut selama lebih dari setengah abad, tetapi belum pernah ada perusahaan seperti NVIDIA yang menjual perangkat keras dan ekosistem, atau dalam kata-kata Huang Renxun: "menjual sistem barebone." Oleh karena itu, target Nvidia memang bukan orang bijak di bidang chip, melainkan Apple, perusahaan lain yang menjual sistem.

Dari peluncuran CUDA pada tahun 2007 hingga menjadi pabrik percetakan uang terbesar di dunia, NVIDIA bukannya tanpa lawan-lawannya.

Pada tahun 2008, Intel, raja industri chip pada saat itu, menghentikan kerja samanya dengan Nvidia dalam proyek grafis terintegrasi dan meluncurkan prosesor serba guna (GPCPU), dengan tujuan untuk "mengambil sungai dan mendominasi" di bidang PC. . Namun, dalam iterasi produk di tahun-tahun berikutnya, Nvidia bersikeras untuk mempromosikan prosesornya sendiri ke area yang membutuhkan daya komputasi lebih kuat seperti ruang angkasa, keuangan, dan biomedis. Oleh karena itu, dalam 10 tahun, Intel tidak melihat harapan untuk menekannya dan terpaksa melakukannya. batalkan paket kartu grafis independen.

Pada tahun 2009, tim pengembangan Apple meluncurkan OpenCL, berharap mendapat bagian dari CUDA karena keserbagunaannya. Namun, OpenCL jauh lebih rendah daripada CUDA dalam hal ekologi pembelajaran mendalam.Banyak kerangka pembelajaran mendukung OpenCL setelah CUDA dirilis, atau tidak mendukung OpenCL sama sekali. Akibatnya, kelambanan dalam pembelajaran mendalam membuat OpenCL tidak mampu menjangkau bisnis dengan nilai tambah lebih tinggi.

Pada tahun 2015, AlphaGo mulai menunjukkan keunggulannya di bidang Go, mengumumkan bahwa era kecerdasan buatan telah tiba. Saat ini, untuk mengejar bus terakhir, Intel memasang GPU AMD ke dalam chip sistemnya sendiri. Ini merupakan kolaborasi pertama kedua perusahaan sejak tahun 1980-an. Namun kini nilai pasar gabungan dari pemimpin CPU, pemimpin kedua, dan pemimpin GPU hanya 1/4 dari pemimpin GPU Nvidia.

Dari perspektif saat ini, parit Nvidia hampir tidak bisa ditembus. Meskipun ada banyak pelanggan besar yang secara diam-diam mengembangkan GPU mereka sendiri, tetapi dengan ekosistem mereka yang besar dan iterasi yang cepat, pelanggan besar ini tidak dapat membuka celah di kerajaan tersebut, seperti yang dibuktikan oleh Tesla. Bisnis mesin pencetak uang NVIDIA akan terus berlanjut di masa mendatang.

Mungkin satu-satunya tempat di mana Huang Renxun dihantui oleh awan gelap adalah tempat di mana terdapat banyak pelanggan dan permintaan yang kuat tetapi H100 tidak dapat dijual, tetapi orang-orang mengertakkan gigi untuk mengatasi masalah ini - hanya ada satu tempat di dunia.

Referensi

[1] dasar krisis

[2] 'Semua Orang dan Anjingnya Membeli GPU,' Kata Musk saat Detail Startup AI PERANGKAT KERAS Emerge-tom

[3] GPU Nvidia H100: Penggunaan GPU Pasokan dan Permintaan

[4] Kekurangan rantai pasokan menunda keuntungan AI di sektor teknologi, FT

[5] Kendala Kapasitas AI - Rantai Pasokan CoWoS dan HBM-DYLAN PATEL, MYRON XIE, DAN GERALD WONG,Semianalisis

[6] Semikonduktor Taiwan: Diremehkan Secara Signifikan Sebagai Pemasok Chip dan Paket Untuk Nvidia-Robert Castellano, Mencari Alpha

[7] Perang Chip, Yu Sheng

[8] Apa itu CUDA? Pemrograman paralel untuk GPU-Martin Heller,InfoWorld

[9] Panduan Pengguna NVIDIA DGX H100

Lihat Asli
Konten ini hanya untuk referensi, bukan ajakan atau tawaran. Tidak ada nasihat investasi, pajak, atau hukum yang diberikan. Lihat Penafian untuk pengungkapan risiko lebih lanjut.
  • Hadiah
  • Komentar
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)