Той прорив, який Давид Канн запропонував у 2023 році, ніколи не був заповнений з боку тренування. Він був заповнений з боку інференсу, і ринок лише за останні кілька тижнів почав враховувати його у цінуванні. Коли Nvidia реорганізувала фінансову звітність навколо «токена сервісу», а Cerebras провела IPO з понад 20-кратним перевищенням попиту, боротьба за вузьке місце вже закінчилася, і справжнім питанням стало наступне: коли інференс стане дефіцитним ресурсом, у якій частині стеку обчислювальної потужності його цінність буде концентруватися.

Ідучи за GPU: від проблеми 200 мільярдів доларів до проблеми 600 мільярдів доларів

У 2023 році Давид Канн з Sequoia підняв питання, яке висить над усім будівництвом штучного інтелекту — «проблему 200 мільярдів доларів». Кожен витрачений долар на GPU означає, що приблизно ще один долар потрібно витратити на електропостачання дата-центру, щоб його підтримувати, тому щорічні капітальні витрати на GPU означають, що ці чіпи повинні генерувати близько 200 мільярдів доларів доходу, щоб окупити цю інвестицію. Навіть за дуже щедрих припущень щодо доходів від AI, він виявив, що існує дірка понад 1250 мільярдів доларів між «інвестиціями» та «фактичними платежами кінцевих клієнтів». Страхи прості: GPU надмірно будуються попереду реальних потреб.

Через рік ця дірка не тільки не зменшилася, а й збільшилася. У продовженні 2024 року, з урахуванням зростання капітальних витрат великих виробників, він переозначив її як «проблему 600 мільярдів доларів». Песимістична логіка зводиться до знайомої форми: надмірне будівництво призводить до перенасичення пропозиції, а надлишок руйнує капітал.

Обидві статті фактично ставлять одне й те саме питання: хто заповнить цю дірку? Відповідь ніколи не з’являлася у балансі «тренування». Вона з’являється з боку inference (інференсу), і ринок лише за останні кілька тижнів почав враховувати її у цінуванні.

IPO Cerebras і тиск інференсу

Cerebras провела IPO у четвер. Попит перевищив пропозицію у 20 разів, а ціна була майже вдвічі вищою за фінальну ціну серед тижня. Попит не був зумовлений ставкою на «наступного Nvidia», а простішою причиною: ринок почав усвідомлювати, що справжнім вузьким місцем у AI є inference, а не тренування.

Головна особливість Cerebras — це архітектура чипа, яка робить inference надзвичайно швидким. Не тренування, а inference. Це саме те, що захоплює Уолл-стріт. Ринок inference є циклічним і зростає з використанням. Кожна відповідь Claude, кожне виконання задачі агентом споживає обчислювальні ресурси. Тренування відбувається один раз, inference ніколи не припиняється.

J.P. Morgan оцінює масштаб ринку inference у 10-50 разів більше за тренування. Коли машини починають виконувати завдання, поставлені іншими машинами, тобто у агентському режимі, потреба у inference вже не зростає з кількістю користувачів, а з обсягом обчислювальної потужності.

Nvidia оновлює карту: inference стає головною новиною

Якщо Cerebras — це пробудження ринку, то останній квартальний звіт Nvidia — підтвердження з верхівки галузі. На останньому фінансовому колі Jensen Huang прямо заявив: попит на AI зростає за параболічною кривою. Причина проста: агентський AI вже тут. Провідний AI переходить від одноразового inference до логічного, а потім до агентів, які самі викликають інструменти та координують задачі. Huang сказав: «Tokens тепер є прибутковими». У епоху AI обчислювальна потужність — це дохід і прибуток.

Це змінює весь індустріальний ландшафт. Тренування — це разова вартість створення моделі, inference — це регулярна операційна вартість її запуску, і тепер вузьке місце — inference, а не тренування.

Nvidia закріпила цю ідею у своїй фінансовій звітності. Вона тепер звітує за два платформи, а не одну: Data Center (даний центр) і Edge Computing (краєвий обчислювальний пристрій). Дата-центр (приблизно 75 мільярдів доларів за квартал, +92%) далі ділиться на Hyperscale (близько 38 мільярдів доларів, +12%) і ACIE, тобто AI Cloud, промисловість і підприємства (близько 37 мільярдів доларів, +31%). Новий напрямок — Edge Computing: 6,4 мільярда доларів, +29%, охоплює агентський AI і фізичний AI, наприклад ПК, робочі станції, базові станції AI-RAN, роботи та автомобілі.

На даний момент краєві рішення становлять менше 8% від загального доходу, але Nvidia вже підняла їх до «другої платформи» поряд із дата-центром. Це сигнал: inference розділяється на дві лінії: cloud inference у дата-центрах і endpoint inference на краю, щоб AI міг бачити, рухатися і діяти у фізичному світі. Дорожня карта слідує цій логіці: з третього кварталу починає поставлятися Vera Rubin, з максимальною пропускною здатністю inference у 35 разів вища за Blackwell; Huang також представив новий CPU Vera, орієнтований на агентські навантаження, з TAM у 200 мільярдів доларів. Кожна провідна компанія з моделями планує перейти на нього з перших днів.

Коли компанії з найбільшим ринковим капіталом виходять на публічний ринок із реорганізацією фінансових звітів навколо «токена сервісу», боротьба за вузьке місце вже закінчена. Решта статті присвячена тому, хто захопить цінність, коли inference (а не тренування) стане дефіцитним ресурсом.

Спершу визначимо межі. У цих двох лініях мова йде про cloud inference — послуги API токенів, орендовані GPU у дата-центрах. Endpoint inference працює на внутрішніх чипах пристроїв (Nvidia Jetson, RTX, Drive, AI-RAN), і зовсім не проходить через оренду GPU та агрегаторські стеки. Тут, будь ласка, сприймайте це як розширення економіки inference і підтвердження теорії вузького місця, а не як ринок Hyperbolic і Venice, які цілком зосереджені на хмарі.

Тиск вже почався

Anthropic — це канарка у шахті. Попит значно перевищує заплановану потужність, і скарги на «відрізання» Claude, повільну inference, звуження контекстного вікна заповнили весь інтернет — включно з обмеженнями у відповідях, уповільненням inference, зменшенням контексту. Рішення — це чистий обчислювальний ресурс: у травні 2026 року Anthropic взяла під контроль весь дата-центр Colossus 1 у SpaceX, з понад 220 тисячами Nvidia GPU і понад 300 МВт, і використовує його для inference, а не для тренування.

Це розблокувало серію змін у лімітах, кожна з яких — сигнал. 6 травня Anthropic подвоїла ліміт на Claude Code до 5 годин, скасувала обмеження у пікові години і значно підвищила швидкість API Opus. 13 травня вона ще на 50% підвищила тижневий ліміт на Claude Code (до 13 липня). Потім, з 15 червня, вона зробила протилежне: вивела агентський і програмний режим (Agent SDK, безголовий режим claude -p, CI pipelines) із плоскої підписки у окремий кредитний пул (щомісяця 20–200 доларів, за API-ціною). Останній крок — це концентрований приклад: швидкість споживання inference агентами значно перевищує можливості плоскої підписки, тому ціна має відповідати «регулярним» операційним витратам.

Тренування — це разові капітальні витрати. Inference — це регулярна операційна вартість, що зростає з кожним новим користувачем і агентом.

Ця структура: шість рівнів, один вузький прохід

Кожен AI-додаток розташований у ланцюжку поставок, що починається з фабрики TSMC і закінчується API-інтерфейсом:

Більшість компаній володіє лише одним рівнем. Nvidia має кремній, CoreWeave — голий метал, Together AI — оптимізацію inference, OpenRouter — маршрутизацію моделей API.

Є лише одна компанія, яка — ні.

Hyperbolic: єдина компанія, що охоплює три рівні

Hyperbolic запустила свій ринок GPU за потребою у червні 2025 року. У перші місяці кількість її розробників перевищила 200 тисяч, і вона охоплює провідні AI-лабораторії, пошук і великі споживчі платформи.

Цікаво, що з архітектурою.

Hyperbolic не володіє жодним GPU. Кожна карта походить із neocloud і дата-центрів, включаючи CoreWeave, Lambda Labs, Nebius, а також менших операторів із вільними потужностями. Це може здаватися слабкістю, але насправді — це її захисна стіна.

Знаючи, хто і коли купує GPU за якою ціною, Hyperbolic бачить дані, яких не бачать інші. Вона бачить їх ще до того, як вони стануть надлишковими, і до того, як попит почне штурмувати ринок.

Зараз ця захисна стіна — це сама ця система мультихмарної агрегації. Hyperbolic з’єднує розрізнені ресурси десятків хмар і дата-центрів у єдине стандартизоване пуло, що дозволяє розробникам орендувати найвигідніші GPU без переговорів з кожним оператором і без управління купою акаунтів. Чим більше підключених хмар, тим глибша ліквідність і багатший ціновий дані. Надалі команда досліджує, як ці дані використовувати для моделювання кривої цін GPU і, зрештою, інвестувати власний капітал для згладжування попиту і пропозиції, виконуючи роль маркет-мейкера фізичної обчислювальної потужності; але ця мета ще на ранній стадії, і саме агрегуючий рівень наразі отримує найбільше переваг.

Ось так працює «фірул»:

Залучення більшої кількості хмар → Більше агрегованих ресурсів

Більше ресурсів → Глибший ринок і реальні цінові дані

Кращі дані → Розумніше маршрутизація зараз, довгостроково — модель ціноутворення

Краща ліквідність і ціна → Більше розробників → Більше хмарних сервісів

Інших компаній, що намагаються зробити те саме, немає. Hyperbolic — єдина, що охоплює одночасно рівень оренди GPU, рівень розгортання і рівень API моделей.

Зеркало Venice

Venice — це найчітше втілення економіки inference на рівні застосунків і корисний контраст із місцем, де знаходиться Hyperbolic. Це приватний додаток inference: набір API, сумісних з OpenAI, з підпискою для споживачів (Free / Pro / Pro+ / Max), що маршрутизує запити до близько 75 моделей, з яких приблизно дві третини — відкриті або самостійно розміщені (Llama, Mistral, Qwen, DeepSeek), решта — анонімний проксінг закритих моделей. Головне — Venice сама не має значних обчислювальних ресурсів. Вона орендує їх у партнерів і у конфіденційних постачальників обчислювальної потужності (NEAR AI Cloud, Phala), і платить передовим лабораторіям за проксінг, тому її реальні витрати — inference, а не SaaS-хостинг.

Головна цінність Venice — приватність. Тут «приватність» — не перетворення публічних ресурсів у приватні, а гарантія для комерційного inference: не зберігати дані, не використовувати їх для тренування, запити анонімізовані, частина навантаження працює у TEE, щоб навіть оператори не бачили відкритий текст. Нижній рівень обчислювальної потужності — масовий продукт, а додана вартість — у цій приватності. І ця гарантія — багаторівнева і не однорідна: для моделей, що працюють на власних або TEE GPU, можливо майже повністю забезпечити конфіденційність від кінця до кінця; для закритих моделей типу Claude або GPT — анонімний проксінг, приватність — лише зняти ідентифікацію, а передові лабораторії все ще обробляють ваші початкові запити. Найсильніша приватність — для відкритих моделей, для закритих — це «анонімність», а не «справжня конфіденційність». Маржа Venice — це різниця між підписною ціною і витратами на inference, і частина, яку вона може додатково отримати понад API-ціну, майже вся підтримується цією приватною надбавкою, що й пояснює її низьку маржу і залежність від цін на передові моделі.

Дизайн токена об’єднує цю частину inference у систему. Venice працює з двома токенами: VVV (застави і доступ до платформи) і DIEM, що є кредитом inference, приблизно рівним одному долару на день обчислювальної потужності. Підписка активує програмне викуплення і знищення VVV (Pro / Pro+ / Max — відповідно 2 / 5 / 10 доларів), а емісія зменшується за фіксованим графіком: щомісяця 6М → 5М → 4М VVV, і з 1 липня зменшена до 3М. Викуп — реальний, але дискреційний і невеликий: у квітні і травні знищено близько 103 тисяч доларів, у червні — повільно наближаючись до 110 тисяч, що значно менше за 200 тисяч доларів щомісяця.

Фундаментальні показники більш здорові, ніж заголовки. Поширене число «70 мільйонів доларів ARR» майже напевно — це помилка, що сприймає повторне продовження підписки як новий клієнт; об’єктивніша оцінка — близько 6–15 мільйонів доларів ARR. За цим — реальний бізнес: близько 136 тисяч гаманців, щомісячно близько 9,9 мільйонів відвідувань сайту (щодня — близько 330 тисяч), нові підписки Pro — близько 1400 щодня. Це реальний бізнес, але з низькою маржею, і його економіка залежить від обчислювальних ресурсів, які він купує.

Саме тому Hyperbolic знаходиться на рівні вище. Якщо Venice — це заправка, то Hyperbolic — нафтопереробний завод. Venice купує обчислювальні ресурси з обмеженого, спільного постачання; Hyperbolic агрегує і стандартизує цю фрагментовану пропозицію і продає її Venice та іншим гравцям. З ростом попиту на inference цінність накопичується не лише у застосунках, що споживають обчислювальні ресурси, а й у їх агрегуванні, маршрутизації і захопленні частки витрат на доходи цих застосунків.

Чому це важливо саме зараз

Nvidia реорганізувала фінансову звітність навколо «токена сервісу». IPO Cerebras довів, що inference — це вузьке місце. Anthropic шукає потужності, що підтверджує реальність проблеми. агентський і фізичний AI збільшать попит у кілька разів, охоплюючи хмари і краєві пристрої.

І це також закриває «проблему 600 мільярдів доларів». Логіка Канна — надмірне будівництво і перенасичення, що, ймовірно, підтвердиться. Але перенасичення — це ідеальна ситуація для агрегаторів із низькими активами: коли ціни GPU падають, а пропозиція розпорошена по десятках хмар, той, хто не володіє обладнанням і маршрутизує навантаження до найвигіднішого GPU, отримує прибуток, тоді як власники з зношеними GPU несуть збитки. Hyperbolic — це довгий бік надлишку, а не короткий.

Переможцем стане не той, хто має найбільше GPU, а той, хто може сказати, де і за якою ціною доступні GPU, і маршрутизувати навантаження до найвигіднішого місця.

Hyperbolic створює саме таку компанію. Не володіючи GPU, вона — чисте програмне забезпечення, що охоплює три рівні, але формує кінцевий агрегатор inference.

VVV-7,29%

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

1 лайків

Нагородити
1
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
GateIPOAccessSpaceX
6.58M Популярність
#
StrategyAdds1550BTCatLowerPrices
2.88M Популярність
#
IsraelStrikesIranBTCPlunges
56.75K Популярність
#
StrongNonfarmPayrollsRekindleRateHikeFear
1.82M Популярність
#
PredictNBAChampionWin20000U
853.88K Популярність

Закріплено

карта сайту

Коли дедукція стає дефіцитним ресурсом, хто захоплює цінність

Популярні теми

GateIPOAccessSpaceX

StrategyAdds1550BTCatLowerPrices

IsraelStrikesIranBTCPlunges

StrongNonfarmPayrollsRekindleRateHikeFear

PredictNBAChampionWin20000U

Закріплено