3 серпня 2023 року Уолл-стріт і Кремнієва долина спільно представили важливу подію, яка шокувала галузь: нехай компанія-початківець отримає 2,3 мільярда доларів США боргового фінансування, а заставою є наразі найтвердіша валюта у світі - H100 графічна карта.
Головний герой цієї великої події називається CoreWeave. Його основним бізнесом є приватні хмарні послуги штучного інтелекту. Простіше кажучи, він забезпечує обчислювальну інфраструктуру для стартапів штучного інтелекту та великих комерційних клієнтів шляхом створення центру обробки даних із великою обчислювальною потужністю GPU. CoreWeave зібрав загалом 580 мільйонів доларів США і зараз перебуває в раунді B з оцінкою 2 мільярди доларів США.
CoreWeave була заснована в 2016 році трьома трейдерами з Уолл-стріт. На початку основний бізнес компанії був лише один: майнінг, купівля великої кількості графічних процесорів для створення машинного центру для майнінгу.Особливо, коли валютний курс був на низькому рівні, компанія запасалася великою кількістю відеокарт. антициклічно, і таким чином встановив залізну революційну дружбу з Nvidia.
Три співзасновники CoreWeave
У 2019 році CoreWeave почала перетворювати ці машини для майнінгу в центри обробки даних корпоративного рівня, щоб надавати клієнтам хмарні сервіси штучного інтелекту.Спочатку бізнес був прохолодним, але після народження ChatGPT навчання та висновок великих моделей потребують багато часу. CoreWeave, яка вже має десятки тисяч графічних карт (звичайно, не обов’язково останньої моделі), поспішно злетіла, і двері були переповнені клієнтами та інвесторами венчурного капіталу.
Але що дивує людей, так це те, що CoreWeave залучила лише 580 мільйонів доларів США, а чиста вартість її графічного процесора не перевищить 1 мільярда доларів США. Навіть загальна вартість компанії становить лише 2 мільярди доларів США, але чому можна він позичив 2,3 мільярда доларів США через іпотеку? А як щодо доларів? Чому Уолл-стріт, яка завжди вміла добре рахувати та прагнула скоротити вартість застави, така щедра?
Причина, швидше за все, полягає в тому, що CoreWeave не має такої кількості графічних карт, але отримала від Nvidia зобов’язання щодо поставок, особливо H100.
Тверді відносини CoreWeave з Nvidia вже є секретом для Кремнієвої долини. Цей тип хардкору ґрунтується на непохитній лояльності та підтримці CoreWeave для Nvidia - використовуйте лише карти Nvidia, категорично не створюйте ядра самостійно та допоможіть Nvidia запастися картами, коли графічну карту неможливо продати. Для Хуан Реньсюня золотий вміст цих відносин набагато перевищує ті пластикові дружні відносини з Microsoft, Google і Tesla.
Тому, незважаючи на дефіцит Nvidia H100, Nvidia виділила велику кількість нових карт для CoreWeave і навіть обмежила поставки таким великим виробникам, як Amazon і Google. Хуан Реньсюнь похвалив під час телефонної конференції: «Група нових постачальників хмарних послуг GPU зросте, найвідомішим з яких є CoreWeave, і вони працюють дуже добре».
За тиждень до того, як Сі зібрав 2,3 мільярда доларів, CoreWeave оголосила, що витратить 1,6 мільярда доларів на будівництво центру обробки даних площею 42 000 квадратних метрів у Техасі. Лише покладаючись на відносини з Nvidia та пріоритетні права на розповсюдження, CoreWeave може позичити гроші в банку на будівництво дата-центру — ця модель нагадує людям забудовників, які одразу звертаються за банківськими позиками після придбання землі.
Тож можна сказати, що поточне зобов’язання щодо постачання H100 можна порівняти з документом про погодження земельної ділянки у золотий вік нерухомості.
H100 — важкодоступну картку
В інтерв'ю в квітні цього року Маск поскаржився на це [2] : «Здається, навіть собаки зараз купують графічні процесори».
За іронією долі, Tesla випустила свій власно розроблений чіп D1 ще в 2021 році, який був виготовлений TSMC і використовував 7-нм техпроцес, стверджуючи, що він зможе замінити основний A100 від Nvidia на той час. Але минуло 2 роки, Nvidia випустила потужніший H100, а Tesla D1 не має подальшої ітерації, тому, коли Маск намагався створити власну компанію зі штучного інтелекту, йому все одно довелося слухняно ставати на коліна перед дверима пана Хуанга та просити картку.
H100 був офіційно представлений 20 вересня минулого року та виготовлений за технологією TSMC 4N. Порівняно зі своїм попередником A100, одна карта H100 покращує швидкість висновку в 3,5 рази, а швидкість навчання — у 2,3 рази.Якщо використовується метод обчислень на кластері серверів, швидкість навчання можна збільшити до 9 разів.Початкове робоче навантаження один тиждень Зараз це займає лише 20 годин.
Діаграма архітектури GH100
Порівняно з A100 ціна однієї карти H100 дорожча, приблизно в 1,5-2 рази, ніж A100, але ефективність навчання великих моделей зросла на 200%, тому «продуктивність за долар» вища. . У поєднанні з найновішим системним рішенням високошвидкісного підключення NVIDIA продуктивність графічного процесора на долар може бути в 4-5 разів вищою, тому клієнти шалено шукають його.
Покупці, які поспішають купити H100, в основному діляться на три категорії:
Перша категорія — це гіганти комплексних хмарних обчислень, такі як Microsoft Azure, Google GCP і Amazon AWS. Їхня особливість полягає в тому, що вони мають глибокі кишені та хочуть «закривати» виробничі потужності Nvidia на кожному кроці. Проте кожна компанія також має приховані наміри. Вони незадоволені майже монопольним становищем Nvidia та таємно розробляють власні чіпи, щоб зменшити витрати.
Друга категорія — це незалежні постачальники хмарних графічних процесорів. Типовими компаніями є CoreWeave, Lambda, RunPod тощо, згадані вище. Обчислювальна потужність таких компаній відносно невелика, але вони можуть надавати диференційовані послуги. Nvidia також сильно підтримує такі компанії, і навіть безпосередньо інвестувала в CoreWeave і Lambda. Застосовуйте очні краплі.
Третя категорія — великі та малі компанії, які самі навчають LLM (велика мовна модель). Серед них такі стартапи, як Anthropic, Inflection і Midjourney, а також такі технологічні гіганти, як Apple, Tesla і Meta. Зазвичай вони використовують обчислювальну потужність зовнішніх постачальників хмарних послуг, купуючи власні графічні процесори для створення власних печей — ті, у кого є гроші, купують більше, ті, у кого їх немає, купують менше, і головна мета — дозволити людям бути багатими та економними.
Серед цих трьох типів клієнтів Microsoft Azure має принаймні 50 000 H100, Google має близько 30 000, Oracle має близько 20 000, а Tesla та Amazon мають принаймні 10 000. Кажуть, що CoreWeave має квоту в 35 000 (фактична доставка приблизно 10 000). Кілька інших компаній мають більше 10 000 квитків.
Скільки H100 загалом потрібно цим трьом типам клієнтів? Згідно з прогнозом закордонної організації GPU Utils, поточний попит на H100 становить близько 432 тис. Серед них OpenAI потребує 50 000 аркушів для навчання GPT-5, Inflection вимагає 22 000 аркушів, Meta вимагає 25 000 аркушів (дехто каже, що 100 000 аркушів), а кожному з чотирьох основних постачальників публічної хмари потрібно щонайменше 30 000 аркушів.Це 100 000 штук, і інші виробники невеликих моделей також мають попит на 100 000 штук. [3] .
Поставки Nvidia H100 у 2023 році становитимуть близько 500 000 одиниць. Зараз виробничі потужності TSMC все ще збільшуються. До кінця року важка ситуація з картами H100 буде полегшена.
Але в довгостроковій перспективі розрив між попитом і пропозицією H100 продовжуватиме збільшуватися з вибухом додатків AIGC. За даними Financial Times, поставки H100 у 2024 році становитимуть від 1,5 до 2 мільйонів аркушів, що в 3-4 рази більше порівняно з 500 000 аркушів цього року. [4] .
Прогнози Уолл-стріт агресивніші: американський інвестиційний банк Piper Sandler вважає, що дохід Nvidia від центрів обробки даних наступного року перевищить 60 мільярдів доларів США (24 квартал 2016 року: 10,32 мільярда доларів США).За цими даними, поставки карт A+H наближаються до 3 мільйонів.
Є ще більш завищені оцінки. Певна найбільша ливарна фабрика серверів H100 (з часткою ринку 70%-80%) постачає сервери H100 з червня цього року, і її виробничі потужності продовжували збільшуватися в липні. Недавнє опитування показує, що ливарний завод вважає, що обсяг поставок карток A+H у 2024 році становитиме від 4,5 до 5 мільйонів.
Це означає «надзвичайне багатство» для Nvidia, тому що величезні прибутки H100 неможливо уявити людям в інших галузях.
Відеокарта дорожча за золото
Щоб дізнатися, наскільки прибутковим є H100, ми могли б повністю розібрати його специфікацію матеріалів (BOM).
Як показано на малюнку, найуніверсальніша версія H100, H100 SXM, використовує пакет TSMC CoWoS із 7. Шість мікросхем 16G HBM3 розташовані в два ряди, щільно оточуючи середню мікросхему логіки.
Це також становить три найважливіші частини H100: логічний чіп, чіп пам'яті HBM, пакет CoWoS.Крім того, є також деякі допоміжні компоненти, такі як друковані плати та інші допоміжні компоненти, але їхня вартість не висока.
Схема розбирання H100
Розмір основного логічного чіпа становить 814 мм^2, виготовленого на найсучаснішому заводі TSMC у Тайнані № 18, а використовуваний технологічний вузол — «4N». Хоча назва починається з 4, насправді це 5 нм+. У зв’язку з низьким рівнем розвитку 5-нм технології, мобільних телефонів та інших галузей у TSMC немає проблем із забезпеченням поставок логічних мікросхем.
Цю логічну мікросхему виготовляють шляхом розрізання 12-дюймової (площа 70,695 мм^2) пластини. За ідеальних умов можна вирізати 86 частин. Однак, враховуючи 80% продуктивності та втрати при різанні лінії "4N", останній З 12-дюймової пластини можна вирізати лише 65 ядерних логічних мікросхем.
Скільки коштує ця основна логічна мікросхема? Ціна TSMC на 2023 рік на 12-дюймову пластину становить 13 400 доларів США, отже одна пластина коштує приблизно 200 доларів США.
Далі йдуть 6 чіпів HBM3, які наразі ексклюзивно постачає SK Hynix. Ця компанія походить із сучасної електроніки. У 2002 році вона майже приєдналася до Micron. З точки зору технології масового виробництва, вона щонайменше на 3 роки випереджає Micron (Micron застряг у HBM2e, а Hynix буде масово вироблятися в середині 2020 року).
Конкретна ціна HBM тримається в секреті кожною компанією, але, за даними корейських ЗМІ, наразі HBM в 5-6 разів вищий за існуючі продукти DRAM. Ціна існуючої відеопам’яті GDDR6 VRAM становить близько 3 доларів США за ГБ, тому ціна HBM оцінюється приблизно в 15 доларів США за ГБ. Цей H100 SXM коштує 1500 доларів на HBM.
Незважаючи на те, що ціна на HBM продовжує зростати цього року, а керівники Nvidia та Meta також звернулися до Hynix, щоб «наглядати за роботою», HBM3 від Samsung буде поступово масово вироблятися та поставлятися у другій половині року. До наступного року HBM більше не буде вузьким місцем.
Справжнім вузьким місцем є упаковка CoWoS від TSMC, яка є процесом упаковки 2,5D. Порівняно з 3D-пакетом свердління (TSV) і проводки (RDL) безпосередньо на чіпі, CoWoS може забезпечити кращу вартість, розсіювання тепла та пропускну здатність. Перші два відповідають HBM, а останні два є ключовими для GPU.
Отже, якщо вам потрібен чіп із великою ємністю для зберігання та високою обчислювальною потужністю, CoWoS — це єдине рішення з точки зору упаковки. Той факт, що всі чотири GPU від Nvidia і AMD використовують CoWoS, є найкращим доказом.
Скільки коштує CoWoS? У фінансовому звіті TSMC за 2022 рік зазначено, що процес CoWoS склав 7% від загального доходу, тому зарубіжний аналітик Роберт Кастеллано підрахував, виходячи з виробничих потужностей і розміру матриці, що упаковка чіпа AI може принести TSMC 723 долари доходу. [6] .
Таким чином, додавши вищезазначені три найбільші статті витрат, загальна сума становитиме близько 2500 доларів США, з яких TSMC припадає приблизно 1000 доларів США (логічний чіп + CoWoS), SK Hynix припадає на 1500 доларів США (Samsung обов’язково візьме участь у майбутньому), і PCB також включені та інші матеріали, загальна вартість матеріалів не перевищує 3000 доларів США.
Скільки коштує H100? 35 000 доларів США, просто додайте нуль, і норма валового прибутку перевищить 90%. За останні 10 років рентабельність валового прибутку Nvidia становила близько 60%. Тепер завдяки високорентабельним A100/A800/H100 рентабельність валового прибутку Nvidia цього року досягла 70%.
Це дещо суперечить інтуїції: Nvidia значною мірою покладається на ливарний завод TSMC, чий статус є недоторканним і навіть є єдиною основною ланкою, яка може задушити Nvidia. Але за таку картку в 35 000 доларів компанія TSMC, яка її виробляє, може отримати лише 1000 доларів, і це лише дохід, а не прибуток.
Однак використання валової норми прибутку для визначення величезних прибутків мало сенсу для компаній, що займаються виробництвом чіпів. Якщо ми почнемо з піску, валова норма прибутку буде вищою. 12-дюймову пластину, виготовлену за технологією 4N, продає TSMC усім майже за $15 000. NVIDIA, природно, має своє ноу-хау в додаванні роздрібної ціни, щоб продавати її клієнтам.
Секрет цього трюку полягає в наступному: Nvidia, по суті, є програмною компанією, яка маскується під виробника обладнання.
Рів, що інтегрує програмне та апаратне забезпечення
Найпотужніша зброя NVIDIA прихована у валовому прибутку за вирахуванням чистого прибутку.
До цього раунду буму штучного інтелекту рентабельність валового прибутку Nvidia залишалася на рівні близько 65% цілий рік, тоді як норма чистого прибутку зазвичай становила лише 30%. У другому кварталі цього року завдяки високому валовому прибутку A100/A800/H100 рентабельність валового прибутку становила 70%, а рентабельність чистого прибутку – 45,81%.
Маржа валового прибутку NVIDIA за один квартал і норма чистого прибутку за останні три фінансові роки
Зараз у Nvidia працює понад 20 000 співробітників по всьому світу, більшість з яких є високооплачуваними інженерами програмного забезпечення та апаратного забезпечення. Згідно з даними Glassdoor, середня річна зарплата на цих посадах в основному перевищує 200 000 доларів США на рік.
Ставка витрат NVIDIA на дослідження та розробки за останні десять фінансових років
Протягом останніх десяти років абсолютна величина витрат NVIDIA на дослідження та розробки підтримувала швидке зростання, а рівень витрат на дослідження та розробки також залишався на рівні вище 20% у стабільному стані. Звичайно, якщо попит на термінали різко зросте в певному році, як-от глибоке навчання у 2017 році, майнінг через 21 рік і великі мовні моделі цього року, знаменник доходу раптово зросте, а коефіцієнт витрат на дослідження та розробки впаде на 20% на короткий час.Прибуток також буде збільшуватися нелінійно.
Найкритичнішим із багатьох проектів, розроблених Nvidia, безсумнівно, є CUDA.
У 2003 році, щоб вирішити проблему високого порогу для програмування DirectX, команда Яна Бака запустила модель програмування під назвою Brook, яка також є прототипом CUDA, про який люди часто говорять пізніше. У 2006 році Бак приєднався до NVIDIA і переконав Джен-Хсунь Хуанга розробити CUDA. [8] .
Оскільки він підтримує паралельні обчислення в середовищі мови C, CUDA став першим вибором інженерів, а GPU став на шлях процесорів загального призначення (GPGPU).
Після поступового розвитку CUDA Бак знову переконав Хуан Реньсюня, що всі майбутні графічні процесори NVIDIA повинні підтримувати CUDA. Проект CUDA був заснований у 2006 році, а продукт був запущений у 2007. На той час річний дохід NVIDIA становив лише 3 мільярди доларів США, але вона витратила на CUDA 500 мільйонів доларів США. До 2017 року витрати на дослідження та розробки лише на CUDA перевищили 10 мільярдів.
Генеральний директор приватної хмарної компанії якось сказав в інтерв’ю, що вони не думали про перехід на карти AMD, але знадобиться щонайменше два місяці, щоб налагодити ці карти для нормальної роботи [3] . Щоб скоротити ці два місяці, Nvidia інвестувала десятки мільярдів і знадобилося 20 років.
Індустрія чіпів переживала злети та падіння протягом понад півстоліття, але ніколи не існувало такої компанії, як NVIDIA, яка продає апаратне забезпечення та екосистему, або, кажучи словами Хуан Реньсюня: «вона продає базові системи». Таким чином, Nvidia дійсно націлена не на мудреців у галузі чіпів, а на Apple, іншу компанію, яка продає системи.
Від запуску CUDA в 2007 році до того, як вона стала найбільшою у світі фабрикою з друку грошей, NVIDIA не позбавлена супротивників.
У 2008 році Intel, на той час король чіпів, перервав співпрацю з Nvidia над проектом інтегрованого дисплея і запустив власний процесор загального призначення (GPCPU), маючи намір «домінувати над рікою» в області ПК. Однак у наступні роки ітерацій продукту Nvidia наполягала на просуванні власних процесорів у галузях, які вимагають більш потужних обчислювальних можливостей, таких як космос, фінанси та біомедицина.Тому Intel була змушена скасувати план незалежної відеокарти через 10 років оскільки не бачила надії придушити його.
У 2009 році команда розробників Apple запустила OpenCL, сподіваючись отримати частку пирога CUDA завдяки своїй універсальності. Однак OpenCL значно поступається CUDA в екології глибокого навчання.Багато навчальних фреймворків або підтримують OpenCL після випуску CUDA, або взагалі не підтримують OpenCL. Як наслідок, OpenCL відстав у глибокому навчанні та не зміг торкнутися компаній із вищою доданою вартістю.
У 2015 році AlphaGo почала дебютувати в галузі Go, оголосивши про настання ери штучного інтелекту. У цей час, щоб наздогнати останній потяг, Intel вставила графічний процесор AMD у власний системний чіп. Це перша співпраця між двома компаніями з 1980-х років. Але тепер сукупна ринкова вартість лідера ЦП, другого дочірнього процесора + другого GPU становить лише 1/4 від лідера GPU Nvidia.
З поточної точки зору, рів Nvidia майже непроникний. Незважаючи на те, що є багато великих клієнтів, які таємно розробляють власні графічні процесори, але з їхньою величезною екосистемою та швидкою ітерацією ці великі клієнти не в змозі проникнути в тріщини в імперії, тому Tesla є доказом. Бізнес Nvidia з машин для друку грошей продовжиться в осяжному майбутньому.
Можливо, єдине місце, де Huang Renxun переслідує темні хмари, це місце, де є багато клієнтів і високий попит, але H100 не можна продати, але люди скрегочуть зубами, щоб вирішити цю проблему. У світі є лише одне місце. .
Посилання
[1] Crunchbase
[2] «Кожен і їхні собаки купують графічні процесори», — говорить Маск, коли стартап зі штучним інтелектом розповідає про АПАРАТНЕ ЗАБЕЗПЕЧЕННЯ Emerge-tom
[4] Дефіцит ланцюга постачання затримує розквіт штучного інтелекту в технологічному секторі, FT
[5] Обмеження потужності штучного інтелекту - CoWoS і HBM Supply Chain-DYLAN PATEL, MYRON XIE AND GERALD WONG,Semianalysis
[6] Taiwan Semiconductor: значно недооцінений як постачальник мікросхем і пакетів для Nvidia - Роберт Кастеллано, шукає альфа-версію
[7] Війна мікросхем, Ю Шен
[8] Що таке CUDA? Паралельне програмування для графічних процесорів - Мартін Хеллер,InfoWorld
[9] Посібник користувача NVIDIA DGX H100
Переглянути оригінал
Контент має виключно довідковий характер і не є запрошенням до участі або пропозицією. Інвестиційні, податкові чи юридичні консультації не надаються. Перегляньте Відмову від відповідальності , щоб дізнатися більше про ризики.
Божевільний H100
Оригінал: Wang Yichuan
**Джерело: **Silicon Research Society
3 серпня 2023 року Уолл-стріт і Кремнієва долина спільно представили важливу подію, яка шокувала галузь: нехай компанія-початківець отримає 2,3 мільярда доларів США боргового фінансування, а заставою є наразі найтвердіша валюта у світі - H100 графічна карта.
Головний герой цієї великої події називається CoreWeave. Його основним бізнесом є приватні хмарні послуги штучного інтелекту. Простіше кажучи, він забезпечує обчислювальну інфраструктуру для стартапів штучного інтелекту та великих комерційних клієнтів шляхом створення центру обробки даних із великою обчислювальною потужністю GPU. CoreWeave зібрав загалом 580 мільйонів доларів США і зараз перебуває в раунді B з оцінкою 2 мільярди доларів США.
CoreWeave була заснована в 2016 році трьома трейдерами з Уолл-стріт. На початку основний бізнес компанії був лише один: майнінг, купівля великої кількості графічних процесорів для створення машинного центру для майнінгу.Особливо, коли валютний курс був на низькому рівні, компанія запасалася великою кількістю відеокарт. антициклічно, і таким чином встановив залізну революційну дружбу з Nvidia.
У 2019 році CoreWeave почала перетворювати ці машини для майнінгу в центри обробки даних корпоративного рівня, щоб надавати клієнтам хмарні сервіси штучного інтелекту.Спочатку бізнес був прохолодним, але після народження ChatGPT навчання та висновок великих моделей потребують багато часу. CoreWeave, яка вже має десятки тисяч графічних карт (звичайно, не обов’язково останньої моделі), поспішно злетіла, і двері були переповнені клієнтами та інвесторами венчурного капіталу.
Але що дивує людей, так це те, що CoreWeave залучила лише 580 мільйонів доларів США, а чиста вартість її графічного процесора не перевищить 1 мільярда доларів США. Навіть загальна вартість компанії становить лише 2 мільярди доларів США, але чому можна він позичив 2,3 мільярда доларів США через іпотеку? А як щодо доларів? Чому Уолл-стріт, яка завжди вміла добре рахувати та прагнула скоротити вартість застави, така щедра?
Причина, швидше за все, полягає в тому, що CoreWeave не має такої кількості графічних карт, але отримала від Nvidia зобов’язання щодо поставок, особливо H100.
Тверді відносини CoreWeave з Nvidia вже є секретом для Кремнієвої долини. Цей тип хардкору ґрунтується на непохитній лояльності та підтримці CoreWeave для Nvidia - використовуйте лише карти Nvidia, категорично не створюйте ядра самостійно та допоможіть Nvidia запастися картами, коли графічну карту неможливо продати. Для Хуан Реньсюня золотий вміст цих відносин набагато перевищує ті пластикові дружні відносини з Microsoft, Google і Tesla.
Тому, незважаючи на дефіцит Nvidia H100, Nvidia виділила велику кількість нових карт для CoreWeave і навіть обмежила поставки таким великим виробникам, як Amazon і Google. Хуан Реньсюнь похвалив під час телефонної конференції: «Група нових постачальників хмарних послуг GPU зросте, найвідомішим з яких є CoreWeave, і вони працюють дуже добре».
За тиждень до того, як Сі зібрав 2,3 мільярда доларів, CoreWeave оголосила, що витратить 1,6 мільярда доларів на будівництво центру обробки даних площею 42 000 квадратних метрів у Техасі. Лише покладаючись на відносини з Nvidia та пріоритетні права на розповсюдження, CoreWeave може позичити гроші в банку на будівництво дата-центру — ця модель нагадує людям забудовників, які одразу звертаються за банківськими позиками після придбання землі.
Тож можна сказати, що поточне зобов’язання щодо постачання H100 можна порівняти з документом про погодження земельної ділянки у золотий вік нерухомості.
H100 — важкодоступну картку
В інтерв'ю в квітні цього року Маск поскаржився на це [2] : «Здається, навіть собаки зараз купують графічні процесори».
За іронією долі, Tesla випустила свій власно розроблений чіп D1 ще в 2021 році, який був виготовлений TSMC і використовував 7-нм техпроцес, стверджуючи, що він зможе замінити основний A100 від Nvidia на той час. Але минуло 2 роки, Nvidia випустила потужніший H100, а Tesla D1 не має подальшої ітерації, тому, коли Маск намагався створити власну компанію зі штучного інтелекту, йому все одно довелося слухняно ставати на коліна перед дверима пана Хуанга та просити картку.
H100 був офіційно представлений 20 вересня минулого року та виготовлений за технологією TSMC 4N. Порівняно зі своїм попередником A100, одна карта H100 покращує швидкість висновку в 3,5 рази, а швидкість навчання — у 2,3 рази.Якщо використовується метод обчислень на кластері серверів, швидкість навчання можна збільшити до 9 разів.Початкове робоче навантаження один тиждень Зараз це займає лише 20 годин.
Порівняно з A100 ціна однієї карти H100 дорожча, приблизно в 1,5-2 рази, ніж A100, але ефективність навчання великих моделей зросла на 200%, тому «продуктивність за долар» вища. . У поєднанні з найновішим системним рішенням високошвидкісного підключення NVIDIA продуктивність графічного процесора на долар може бути в 4-5 разів вищою, тому клієнти шалено шукають його.
Покупці, які поспішають купити H100, в основному діляться на три категорії:
Перша категорія — це гіганти комплексних хмарних обчислень, такі як Microsoft Azure, Google GCP і Amazon AWS. Їхня особливість полягає в тому, що вони мають глибокі кишені та хочуть «закривати» виробничі потужності Nvidia на кожному кроці. Проте кожна компанія також має приховані наміри. Вони незадоволені майже монопольним становищем Nvidia та таємно розробляють власні чіпи, щоб зменшити витрати.
Друга категорія — це незалежні постачальники хмарних графічних процесорів. Типовими компаніями є CoreWeave, Lambda, RunPod тощо, згадані вище. Обчислювальна потужність таких компаній відносно невелика, але вони можуть надавати диференційовані послуги. Nvidia також сильно підтримує такі компанії, і навіть безпосередньо інвестувала в CoreWeave і Lambda. Застосовуйте очні краплі.
Третя категорія — великі та малі компанії, які самі навчають LLM (велика мовна модель). Серед них такі стартапи, як Anthropic, Inflection і Midjourney, а також такі технологічні гіганти, як Apple, Tesla і Meta. Зазвичай вони використовують обчислювальну потужність зовнішніх постачальників хмарних послуг, купуючи власні графічні процесори для створення власних печей — ті, у кого є гроші, купують більше, ті, у кого їх немає, купують менше, і головна мета — дозволити людям бути багатими та економними.
Серед цих трьох типів клієнтів Microsoft Azure має принаймні 50 000 H100, Google має близько 30 000, Oracle має близько 20 000, а Tesla та Amazon мають принаймні 10 000. Кажуть, що CoreWeave має квоту в 35 000 (фактична доставка приблизно 10 000). Кілька інших компаній мають більше 10 000 квитків.
Скільки H100 загалом потрібно цим трьом типам клієнтів? Згідно з прогнозом закордонної організації GPU Utils, поточний попит на H100 становить близько 432 тис. Серед них OpenAI потребує 50 000 аркушів для навчання GPT-5, Inflection вимагає 22 000 аркушів, Meta вимагає 25 000 аркушів (дехто каже, що 100 000 аркушів), а кожному з чотирьох основних постачальників публічної хмари потрібно щонайменше 30 000 аркушів.Це 100 000 штук, і інші виробники невеликих моделей також мають попит на 100 000 штук. [3] .
Поставки Nvidia H100 у 2023 році становитимуть близько 500 000 одиниць. Зараз виробничі потужності TSMC все ще збільшуються. До кінця року важка ситуація з картами H100 буде полегшена.
Але в довгостроковій перспективі розрив між попитом і пропозицією H100 продовжуватиме збільшуватися з вибухом додатків AIGC. За даними Financial Times, поставки H100 у 2024 році становитимуть від 1,5 до 2 мільйонів аркушів, що в 3-4 рази більше порівняно з 500 000 аркушів цього року. [4] .
Прогнози Уолл-стріт агресивніші: американський інвестиційний банк Piper Sandler вважає, що дохід Nvidia від центрів обробки даних наступного року перевищить 60 мільярдів доларів США (24 квартал 2016 року: 10,32 мільярда доларів США).За цими даними, поставки карт A+H наближаються до 3 мільйонів.
Є ще більш завищені оцінки. Певна найбільша ливарна фабрика серверів H100 (з часткою ринку 70%-80%) постачає сервери H100 з червня цього року, і її виробничі потужності продовжували збільшуватися в липні. Недавнє опитування показує, що ливарний завод вважає, що обсяг поставок карток A+H у 2024 році становитиме від 4,5 до 5 мільйонів.
Це означає «надзвичайне багатство» для Nvidia, тому що величезні прибутки H100 неможливо уявити людям в інших галузях.
Відеокарта дорожча за золото
Щоб дізнатися, наскільки прибутковим є H100, ми могли б повністю розібрати його специфікацію матеріалів (BOM).
Як показано на малюнку, найуніверсальніша версія H100, H100 SXM, використовує пакет TSMC CoWoS із 7. Шість мікросхем 16G HBM3 розташовані в два ряди, щільно оточуючи середню мікросхему логіки.
Це також становить три найважливіші частини H100: логічний чіп, чіп пам'яті HBM, пакет CoWoS.Крім того, є також деякі допоміжні компоненти, такі як друковані плати та інші допоміжні компоненти, але їхня вартість не висока.
Розмір основного логічного чіпа становить 814 мм^2, виготовленого на найсучаснішому заводі TSMC у Тайнані № 18, а використовуваний технологічний вузол — «4N». Хоча назва починається з 4, насправді це 5 нм+. У зв’язку з низьким рівнем розвитку 5-нм технології, мобільних телефонів та інших галузей у TSMC немає проблем із забезпеченням поставок логічних мікросхем.
Цю логічну мікросхему виготовляють шляхом розрізання 12-дюймової (площа 70,695 мм^2) пластини. За ідеальних умов можна вирізати 86 частин. Однак, враховуючи 80% продуктивності та втрати при різанні лінії "4N", останній З 12-дюймової пластини можна вирізати лише 65 ядерних логічних мікросхем.
Скільки коштує ця основна логічна мікросхема? Ціна TSMC на 2023 рік на 12-дюймову пластину становить 13 400 доларів США, отже одна пластина коштує приблизно 200 доларів США.
Далі йдуть 6 чіпів HBM3, які наразі ексклюзивно постачає SK Hynix. Ця компанія походить із сучасної електроніки. У 2002 році вона майже приєдналася до Micron. З точки зору технології масового виробництва, вона щонайменше на 3 роки випереджає Micron (Micron застряг у HBM2e, а Hynix буде масово вироблятися в середині 2020 року).
Конкретна ціна HBM тримається в секреті кожною компанією, але, за даними корейських ЗМІ, наразі HBM в 5-6 разів вищий за існуючі продукти DRAM. Ціна існуючої відеопам’яті GDDR6 VRAM становить близько 3 доларів США за ГБ, тому ціна HBM оцінюється приблизно в 15 доларів США за ГБ. Цей H100 SXM коштує 1500 доларів на HBM.
Незважаючи на те, що ціна на HBM продовжує зростати цього року, а керівники Nvidia та Meta також звернулися до Hynix, щоб «наглядати за роботою», HBM3 від Samsung буде поступово масово вироблятися та поставлятися у другій половині року. До наступного року HBM більше не буде вузьким місцем.
Справжнім вузьким місцем є упаковка CoWoS від TSMC, яка є процесом упаковки 2,5D. Порівняно з 3D-пакетом свердління (TSV) і проводки (RDL) безпосередньо на чіпі, CoWoS може забезпечити кращу вартість, розсіювання тепла та пропускну здатність. Перші два відповідають HBM, а останні два є ключовими для GPU.
Отже, якщо вам потрібен чіп із великою ємністю для зберігання та високою обчислювальною потужністю, CoWoS — це єдине рішення з точки зору упаковки. Той факт, що всі чотири GPU від Nvidia і AMD використовують CoWoS, є найкращим доказом.
Скільки коштує CoWoS? У фінансовому звіті TSMC за 2022 рік зазначено, що процес CoWoS склав 7% від загального доходу, тому зарубіжний аналітик Роберт Кастеллано підрахував, виходячи з виробничих потужностей і розміру матриці, що упаковка чіпа AI може принести TSMC 723 долари доходу. [6] .
Таким чином, додавши вищезазначені три найбільші статті витрат, загальна сума становитиме близько 2500 доларів США, з яких TSMC припадає приблизно 1000 доларів США (логічний чіп + CoWoS), SK Hynix припадає на 1500 доларів США (Samsung обов’язково візьме участь у майбутньому), і PCB також включені та інші матеріали, загальна вартість матеріалів не перевищує 3000 доларів США.
Скільки коштує H100? 35 000 доларів США, просто додайте нуль, і норма валового прибутку перевищить 90%. За останні 10 років рентабельність валового прибутку Nvidia становила близько 60%. Тепер завдяки високорентабельним A100/A800/H100 рентабельність валового прибутку Nvidia цього року досягла 70%.
Це дещо суперечить інтуїції: Nvidia значною мірою покладається на ливарний завод TSMC, чий статус є недоторканним і навіть є єдиною основною ланкою, яка може задушити Nvidia. Але за таку картку в 35 000 доларів компанія TSMC, яка її виробляє, може отримати лише 1000 доларів, і це лише дохід, а не прибуток.
Однак використання валової норми прибутку для визначення величезних прибутків мало сенсу для компаній, що займаються виробництвом чіпів. Якщо ми почнемо з піску, валова норма прибутку буде вищою. 12-дюймову пластину, виготовлену за технологією 4N, продає TSMC усім майже за $15 000. NVIDIA, природно, має своє ноу-хау в додаванні роздрібної ціни, щоб продавати її клієнтам.
Секрет цього трюку полягає в наступному: Nvidia, по суті, є програмною компанією, яка маскується під виробника обладнання.
Рів, що інтегрує програмне та апаратне забезпечення
Найпотужніша зброя NVIDIA прихована у валовому прибутку за вирахуванням чистого прибутку.
До цього раунду буму штучного інтелекту рентабельність валового прибутку Nvidia залишалася на рівні близько 65% цілий рік, тоді як норма чистого прибутку зазвичай становила лише 30%. У другому кварталі цього року завдяки високому валовому прибутку A100/A800/H100 рентабельність валового прибутку становила 70%, а рентабельність чистого прибутку – 45,81%.
Зараз у Nvidia працює понад 20 000 співробітників по всьому світу, більшість з яких є високооплачуваними інженерами програмного забезпечення та апаратного забезпечення. Згідно з даними Glassdoor, середня річна зарплата на цих посадах в основному перевищує 200 000 доларів США на рік.
Протягом останніх десяти років абсолютна величина витрат NVIDIA на дослідження та розробки підтримувала швидке зростання, а рівень витрат на дослідження та розробки також залишався на рівні вище 20% у стабільному стані. Звичайно, якщо попит на термінали різко зросте в певному році, як-от глибоке навчання у 2017 році, майнінг через 21 рік і великі мовні моделі цього року, знаменник доходу раптово зросте, а коефіцієнт витрат на дослідження та розробки впаде на 20% на короткий час.Прибуток також буде збільшуватися нелінійно.
Найкритичнішим із багатьох проектів, розроблених Nvidia, безсумнівно, є CUDA.
У 2003 році, щоб вирішити проблему високого порогу для програмування DirectX, команда Яна Бака запустила модель програмування під назвою Brook, яка також є прототипом CUDA, про який люди часто говорять пізніше. У 2006 році Бак приєднався до NVIDIA і переконав Джен-Хсунь Хуанга розробити CUDA. [8] .
Оскільки він підтримує паралельні обчислення в середовищі мови C, CUDA став першим вибором інженерів, а GPU став на шлях процесорів загального призначення (GPGPU).
Після поступового розвитку CUDA Бак знову переконав Хуан Реньсюня, що всі майбутні графічні процесори NVIDIA повинні підтримувати CUDA. Проект CUDA був заснований у 2006 році, а продукт був запущений у 2007. На той час річний дохід NVIDIA становив лише 3 мільярди доларів США, але вона витратила на CUDA 500 мільйонів доларів США. До 2017 року витрати на дослідження та розробки лише на CUDA перевищили 10 мільярдів.
Генеральний директор приватної хмарної компанії якось сказав в інтерв’ю, що вони не думали про перехід на карти AMD, але знадобиться щонайменше два місяці, щоб налагодити ці карти для нормальної роботи [3] . Щоб скоротити ці два місяці, Nvidia інвестувала десятки мільярдів і знадобилося 20 років.
Індустрія чіпів переживала злети та падіння протягом понад півстоліття, але ніколи не існувало такої компанії, як NVIDIA, яка продає апаратне забезпечення та екосистему, або, кажучи словами Хуан Реньсюня: «вона продає базові системи». Таким чином, Nvidia дійсно націлена не на мудреців у галузі чіпів, а на Apple, іншу компанію, яка продає системи.
Від запуску CUDA в 2007 році до того, як вона стала найбільшою у світі фабрикою з друку грошей, NVIDIA не позбавлена супротивників.
У 2008 році Intel, на той час король чіпів, перервав співпрацю з Nvidia над проектом інтегрованого дисплея і запустив власний процесор загального призначення (GPCPU), маючи намір «домінувати над рікою» в області ПК. Однак у наступні роки ітерацій продукту Nvidia наполягала на просуванні власних процесорів у галузях, які вимагають більш потужних обчислювальних можливостей, таких як космос, фінанси та біомедицина.Тому Intel була змушена скасувати план незалежної відеокарти через 10 років оскільки не бачила надії придушити його.
У 2009 році команда розробників Apple запустила OpenCL, сподіваючись отримати частку пирога CUDA завдяки своїй універсальності. Однак OpenCL значно поступається CUDA в екології глибокого навчання.Багато навчальних фреймворків або підтримують OpenCL після випуску CUDA, або взагалі не підтримують OpenCL. Як наслідок, OpenCL відстав у глибокому навчанні та не зміг торкнутися компаній із вищою доданою вартістю.
У 2015 році AlphaGo почала дебютувати в галузі Go, оголосивши про настання ери штучного інтелекту. У цей час, щоб наздогнати останній потяг, Intel вставила графічний процесор AMD у власний системний чіп. Це перша співпраця між двома компаніями з 1980-х років. Але тепер сукупна ринкова вартість лідера ЦП, другого дочірнього процесора + другого GPU становить лише 1/4 від лідера GPU Nvidia.
З поточної точки зору, рів Nvidia майже непроникний. Незважаючи на те, що є багато великих клієнтів, які таємно розробляють власні графічні процесори, але з їхньою величезною екосистемою та швидкою ітерацією ці великі клієнти не в змозі проникнути в тріщини в імперії, тому Tesla є доказом. Бізнес Nvidia з машин для друку грошей продовжиться в осяжному майбутньому.
Можливо, єдине місце, де Huang Renxun переслідує темні хмари, це місце, де є багато клієнтів і високий попит, але H100 не можна продати, але люди скрегочуть зубами, щоб вирішити цю проблему. У світі є лише одне місце. .
Посилання
[1] Crunchbase
[2] «Кожен і їхні собаки купують графічні процесори», — говорить Маск, коли стартап зі штучним інтелектом розповідає про АПАРАТНЕ ЗАБЕЗПЕЧЕННЯ Emerge-tom
[3] Графічні процесори Nvidia H100: утиліти графічного процесора пропозиції та попиту
[4] Дефіцит ланцюга постачання затримує розквіт штучного інтелекту в технологічному секторі, FT
[5] Обмеження потужності штучного інтелекту - CoWoS і HBM Supply Chain-DYLAN PATEL, MYRON XIE AND GERALD WONG,Semianalysis
[6] Taiwan Semiconductor: значно недооцінений як постачальник мікросхем і пакетів для Nvidia - Роберт Кастеллано, шукає альфа-версію
[7] Війна мікросхем, Ю Шен
[8] Що таке CUDA? Паралельне програмування для графічних процесорів - Мартін Хеллер,InfoWorld
[9] Посібник користувача NVIDIA DGX H100