Економіка токенів Хуанга Жень-цзюня

Як AI·Token-економіка змінює прибуткову модель дата-центрів?

Журналіст: Чжень Ченьєй

Щорічна конференція NVIDIA GTC, яка вважається орієнтиром у галузі штучного інтелекту, цього року проходила з 16 по 19 березня у Сан-Хосе, Каліфорнія, США.

16 березня о 11:00 за місцевим часом, що відповідало 2:00 ночі 17 березня за київським часом, генеральний директор NVIDIA Дженсен Хуанг виступив із понад двогодинною тематичною промовою у центрі SAP у Сан-Хосе.

У своїй промові Хуанг спрогнозував, що до 2027 року глобальний попит на інфраструктуру штучного інтелекту досягне 1 трильйона доларів. Він також зазначив, що реальний попит може бути значно вищим, і продукти NVIDIA можуть бути навіть у дефіциті.

Після цієї заяви ціна акцій NVIDIA на американському ринку миттєво зросла більш ніж на 4%. Однак через кілька годин, коли відкрилися торги на китайському ринку, акції компаній у ланцюжку обчислювальної індустрії почали падати: Tianfutong (300394.SZ) закрилася з падінням понад 10%, Changguang Huaxin (688048.SH) — майже на 10%, більшість провідних компаній втратили близько 5% за останні 5 днів.

З одного боку — очікування трильйонних доларів, з іншого — різке падіння акцій у ланцюжку індустрії. Різниця пояснюється часовими масштабами.

Хуанг говорив про майбутній попит, але його анонсована наступна генерація чипів Feynman з’явиться лише у 2028 році. Крім того, у звіті компанії Wande Securities від 16 березня зазначено, що середня ціна на акції електронної галузі на китайському ринку станом на 15 березня становила приблизно 82-кратний коефіцієнт P/E, і ринок, можливо, боїться “високих цін”.

Проте головне у промові Хуанга — не цифра у трильйон доларів сама по собі, а те, що він за дві години виклав нову бізнес-логіку: дата-центри перетворюються з місць тренування моделей у фабрики виробництва токенів.

Фабрика токенів

Token — це базова одиниця обробки інформації у великих мовних моделях, приблизно її можна уявити як фрагмент тексту, створений або оброблений AI. Один ієрогліф китайської мови відповідає приблизно одному або двом токенам.

За останні два роки споживання токенів зросло у кілька разів.

Хуанг простежив цю тенденцію через три ключові моменти: у кінці 2022 року запустили ChatGPT, і AI навчився генерувати контент, почав активно витрачати токени; з появою моделі ChatGPT o1 AI навчився робити висновки і рефлексувати, для цього потрібно генерувати багато токенів внутрішньо; після випуску Claude Code (інструмент для програмування на базі AI, розроблений компанією Anthropic), AI навчився читати файли, писати код і тестувати його, витрачаючи у кілька разів більше токенів на кожне завдання, ніж на просту розмову.

Хуанг зазначив, що всі інженери NVIDIA використовують AI для допомоги у програмуванні.

Робота AI складається з двох етапів: тренування — щоб зробити модель розумнішою, потрібно витратити великі кошти; і inference (виведення) — коли модель виконує завдання, і ця потреба зростає щодня. Раніше глобально купували GPU (графічні процесори, основне обладнання для AI-обчислень), щоб тренувати моделі, тепер же фокус зміщується у бік inference.

Хуанг сказав, що обсяг бізнесу сервісів inference за рік зріс у 100 разів. Аналізатор IDC у Китаї, Ду Юньлун, повідомив, що наразі в Китаї швидкість зростання і частка серверів inference вже перевищують тренувальні, а за обсягом поставок серверів inference становлять близько 60%.

Попит на inference вибуховий, але ціноутворення токенів ще не сформувалося.

Хуанг назвав п’ять рівнів цін: безкоштовний — великий обсяг токенів, але повільна відповідь; середній — близько 3 доларів за мільйон токенів; високий — близько 6 доларів; швидкий — близько 45 доларів; преміум — близько 150 доларів за мільйон токенів. Чим більша модель, довший контекст і швидша відповідь, тим дорожче токен.

На прикладі преміум-рівня: команда дослідників щодня використовує 50 мільйонів токенів, за ціною 150 доларів за мільйон — це всього 7500 доларів, що для бізнесу не є значною сумою. Після розширення контекстного вікна з 32K до 400K токенів AI може одразу прочитати весь контракт або кодову базу, і ціна відповідає новим можливостям.

Зі створенням багаторівневої системи ціноутворення економічна модель дата-центру змінюється.

Хуанг сказав, що кожен дата-центр обмежений електроенергією: 1 ГВт (гігава — одиниця вимірювання потужності) не може перетворитися у 2 ГВт через обмеження електроенергії і землі. За фіксованої потужності той, хто витрачає менше електроенергії на виробництво токенів, має нижчі витрати. Тобто, за однакової витрати електроенергії, той, хто виробляє більше токенів, заробляє більше.

Він показав цифри: один і той самий 1 ГВт дата-центр, якщо розподілити обчислювальні ресурси між різними ціновими рівнями, то при використанні архітектури Blackwell річний дохід становитиме близько 30 мільярдів доларів, а при новій Vera Rubin — близько 150 мільярдів, а з додаванням прискорювачів Groq LPU — до 300 мільярдів доларів. Тобто, один і той самий дата-центр з різним обладнанням може приносити у 10 разів більше доходу.

За фінансовим роком 2026 NVIDIA отримала 215,9 мільярдів доларів доходу, з яких 193,7 мільярдів — з дата-центрів.

За логікою Хуанга, існуючі дата-центри ще не повністю використані, і замінивши обладнання на нове, можна отримати у кілька разів більше доходу за ті ж електричні ресурси. Очікування трильйонів доларів — не через зростання цін на чипи, а через здатність виробляти більше і дорожчих токенів за ту ж кількість електроенергії.

Хуанг сказав, що у майбутньому кожен CEO буде стежити за ефективністю своїх токен-фабрик, адже це безпосередньо впливає на дохід.

Він також описав зміну у Кремнієвій долині: дедалі більше інженерів щодня використовують AI для написання коду, досліджень і обробки документів, що все потребує витрат токенів, і компанії мають оплачувати ці витрати.

Хуанг спрогнозував, що ці витрати стануть настільки великими, що їх доведеться окремо враховувати у бюджеті, так само як компанії виділяють кошти на комп’ютери і програмне забезпечення для співробітників.

Він також сказав, що кожен інженер при прийомі на роботу отримає щорічний бюджет токенів, приблизно у половину його базової зарплати.

Два типи чипів

Ця економіка токенів відповідає апаратному забезпеченню, яке було офіційно представлено на GTC — платформі Vera Rubin.

Хуанг зазначив, що раніше, говорячи про архітектуру Hopper, він піднімав чип, але Vera Rubin — це не один чип, а ціла система. Вона зроблена з повністю рідинного охолодження, і час її встановлення зменшився з двох днів до двох годин.

Vera Rubin складається з семи чипів. Основний каркас NVL72 містить 72 GPU Rubin і 36 CPU Vera, з’єднаних через NVLink 6 (власна високошвидкісна технологія NVIDIA). У порівнянні з попереднім Blackwell, продуктивність на ват зросла у 10 разів, а вартість одного токена знизилася у десять разів.

Також NVIDIA представила новий CPU Vera з 88 ядрами, спеціально оптимізований для сценаріїв роботи з AI-агентами та обробки даних.

Хуанг повідомив, що керівник Microsoft, Сатья Наделла, підтвердив, що перші системи Vera Rubin вже працюють у хмарній платформі Azure.

Однак у системі є недолік: коли кожен користувач потребує понад 400 токенів за секунду, пропускна здатність NVL72 вже не достатня. Це компенсує компанія Groq, заснована у 2016 році, яка розробила AI-ускорювачі. NVIDIA раніше придбала ліцензію на технології Groq і команду.

LPU (Language Processing Unit) компанії Groq і GPU — це два різні типи чипів. GPU має великий обсяг пам’яті і високі обчислювальні можливості: один Rubin GPU має 288 ГБ пам’яті і підходить для складних обчислень. LPU має менший обсяг пам’яті — всього 500 МБ, але дуже швидкий у читанні і записі, і не може зберігати повний набір параметрів моделі, але швидше і з меншими затримками у генерації токенів.

За допомогою програмного забезпечення Dynamo NVIDIA розділила процес inference на два етапи: обробку контексту з високими вимогами до обчислювальної потужності і пам’яті виконує Vera Rubin, а генерацію токенів, чутливу до затримок, — Groq LPU. Обидва пристрої з’єднані високошвидкісним Ethernet, що зменшує затримки приблизно удвічі.

Хуанг назвав цей підхід “декуплінг inference” — розподіл процесу між різними чипами, щоб врахувати, що високий пропуск і низька затримка — природно суперечать один одному. Краще дозволити кожному чипу виконувати те, що у нього виходить найкраще.

Він зазначив, що ця комбінація забезпечує у 35 разів вищу продуктивність у високих цінових рівнях — 45 і 150 доларів за токен.

З довгострокової перспективи, за два роки, один і той самий 1 ГВт дата-центр може збільшити швидкість генерації токенів з 22 мільйонів до 700 мільйонів за секунду.

Хуанг порадив клієнтам: якщо основне завдання — високий пропуск у пакетних inference, краще використовувати Vera Rubin; якщо потрібно багато програмування або реального часу — виділити 25% обчислювальних ресурсів на Groq LPU.

Він повідомив, що три LPU від Groq, виготовлені Samsung, вже серійно виробляються і планують почати поставки у третьому кварталі цього року.

Щодо програмного забезпечення, NVIDIA представила корпоративну платформу для інтелектуальних агентів NemoClaw, яка підтримує популярний відкритий проект OpenClaw. За кілька тижнів OpenClaw став найшвидше зростаючим відкритим проектом на GitHub, і Хуанг порівняв його з Linux, назвавши операційною системою для інтелектуальних агентів.

Однак у корпоративному середовищі використання відкритого OpenClaw має ризики безпеки, оскільки інтелектуальні агенти можуть отримати доступ до конфіденційних даних компанії, виконувати код і виходити у зовнішні мережі. Тому NVIDIA додала до OpenClaw рівень корпоративної безпеки — NemoClaw. Вже 17 компаній, таких як Adobe, Salesforce, SAP, оголосили про використання інструментарію Agent Toolkit від NVIDIA.

Щодо дорожньої карти, NVIDIA анонсувала наступне покоління архітектури Feynman, яке вийде у 2028 році і підтримуватиме одночасно два типи інтерконектів: кабельний і CPO (технологія інтеграції оптичних компонентів безпосередньо у чип).

Цього року виповнюється 20 років з дня створення CUDA — платформи для універсальних обчислень на GPU, яка стала основою екосистеми NVIDIA. Хуанг повідомив, що 60% бізнесу NVIDIA зараз припадає на глобальні хмарні провайдери, а решта — на сфери AI для суверенних держав, підприємств, промисловості і робототехніки.

На цій конференції NVIDIA також оголосила про співпрацю з Uber, BYD, Geely, Hyundai, Nissan і Isuzu у галузі автоматичного водіння. Це сприяло зростанню автомобільного сектору на Гонконгській біржі: 17 березня акції Geely зросли більш ніж на 5%, закінчивши торги з приростом 4,55%.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити