«Надійність NVIDIA залишилася лише 48%, де полягає можливість великої епохи інференції?»


Це дев’ята стаття з серії AI інвестиційного дослідження на 100 статей, 20 000 слів, рекомендується спершу зберегти, мало хто зможе прочитати повністю.
У попередніх статтях розглядалися Intel, AMD, ARM. Вони за минулий рік значно підняли свої цінники — AMD подвоїлася, Intel потроїлася, ARM також досягла історичних максимумів. Після зростання виникає просте питання: чи можна ще тримати ці акції? Чи є ще можливості у тих, хто не піднімався?
Щоб відповісти на це питання, неможливо обійтися без ключового слова — інференція. У попередніх компаніях, що зросли, в аналізах багато разів з’являються ці два слова.
Отже: наскільки великий сегмент інференції? На якій стадії зараз? Які компанії виграють? Які вже закладені у ринкову ціну, а які ще ні?
Це потрібно зрозуміти першочергово.
Один, наскільки великий сегмент
Навчання моделей — це «писати програми», інференція — «процес виклику цієї програми щодня». Після тренування GPT щодня запитують мільярди людей, кожен запит споживає обчислювальні ресурси для інференції. Claude Code виконує одну задачу, агент сам проходить сто раундів, кожен — це інференція.
Багато галузевих досліджень і медіа посилаються на одне й те саме: після запуску моделі у виробництво, інференція стане головною статтею витрат життєвого циклу, за оцінками — 80-90%. Тобто у майбутній епосі AI, 10 доларів — 8 витрат на інференцію.
Але за останні три роки майже весь дискурс був навколо тренування, бо це більш «сексуальна» історія — скільки H100, скільки параметрів, хто швидше натренує наступне покоління моделей. Інференція вважалася додатковою після тренування.
Це перекручення уявлень починає змінюватися, і саме це — причина переоцінки цінності наприкінці минулого року для цілої групи напівпровідникових компаній.
А наскільки великий сегмент інференції? Конкретно можна оцінити з п’яти аспектів.
Перший — кількість користувачів. ChatGPT має 900 мільйонів активних тижнево, 50 мільйонів платних. Для Китаю — ще більш прямий показник — щоденне використання токенів зросло з початку 2024 року з 100 мільярдів до 140 трильйонів у 2026 році, у 1400 разів. Ця цифра ще далека від насичення.
Другий — інтенсивність використання. Обсяг обробки токенів OpenAI у жовтні 2025 року становив 6 мільярдів за хвилину, у квітні 2026 — вже 15 мільярдів, за півроку зросло у 2,5 рази. Доходи від корпоративної версії перевищують 40%, а корпоративні користувачі використовують у десятки разів більше.
Третій — довжина діалогу. Початково — кілька сотень токенів, зараз API DeepSeek вказує довжину контексту V4 Pro / Flash до 1 мільйона, максимальний вихід — 384 тисячі. Чим довший контекст, тим більше пам’яті та обчислювальної потужності потрібно для однієї інференції.
Четвертий — сама модель стає все більш ресурсомісткою. Моделі reasoning, такі як OpenAI o1, DeepSeek R1, Claude, перед відповіддю «думають» внутрішньо кілька тисяч або десятки тисяч токенів. Хуанг Женьхун у прикладі DeepSeek R1 зазначав, що інференційні моделі можуть потребувати значно більшої кількості обчислень — у сотні разів.
Раніше ви ставили AI запит — він одразу давав відповідь; тепер — якщо поставити складне питання, він спершу думає півхвилини, а потім відповідає. Це «думання півхвилини» — новий витратний фактор.
П’яте — агент. Зазвичай один агент виконує 10-100 викликів моделі. Щотижнева активність OpenAI Codex вже перевищує 3 мільйони — це лише один продукт однієї компанії. Оцінка фахівця з AI-індустрії — загальні витрати на обчислювальні ресурси AI-агентів можуть перевищувати у 10 разів витрати на великі мовні моделі з аналогічною кількістю параметрів.
Перемноживши ці п’ять факторів, можна зробити висновок, що у найближчі 3-5 років попит на інференцію зросте у кілька порядків — це не перебільшення, а все більш поширена оцінка.
В економіці існує старий феномен — парадокс Джевонса: підвищення ефективності використання ресурсу призводить до зростання його загального споживання, бо стає дешевше і більше сценаріїв його застосування. Після підвищення ефективності парової машини споживання вугілля у Великій Британії стрімко зросло; після зниження ціни токенів інференції, кількість викликів AI стрімко зросла. Це один і той самий сценарій. Міжнародне енергетичне агентство (IEA) підрахувало, що глобальне споживання електроенергії у дата-центрах зросте з 1,5% у 2024 році до 945 ТВт-год у 2030 — приблизно у два рази, що відповідає річному споживанню Німеччини та Франції разом.
Крім того, конкретні дії галузі підтверджують цю тенденцію:
ARR Anthropic з кінця 2024 року — 1 мільярд доларів, а до початку 2026 — 30 мільярдів доларів — за 14 місяців у 30 разів. Щоб підтримати цю криву, компанія у 2025-2026 роках заклала понад 11 ГВт обчислювальної потужності, зокрема замовила у Broadcom TPU на 21 мільярд доларів. OpenAI вже пообіцяла розгорнути 10 ГВт власних чипів. Google підвищила ціль по поставках TPU у 2026 році на 50% — до 6 мільйонів штук.
Капітальні витрати хмарних провайдерів ще більш очевидні. Google у 2026 році планує витратити 1750-1850 мільярдів доларів, майже у два рази більше, ніж у 2025; Amazon — 200 мільярдів доларів; Meta — збільшить витрати на 65% до 118 мільярдів доларів. Загалом, капітальні витрати восьми великих хмарних компаній у 2026 році перевищать 600 мільярдів доларів, зростаючи на 40% щороку.
Об’єднуючи ці дані, можна зробити простий висновок — попит на інференцію вже перевищує можливості будь-якого апаратного постачальника.
Це і є головна характеристика сегменту інференції: у тренувальну епоху — «створити бога», у епоху інференції — «цей бог викликають сотнями мільйонів людей щодня, кожен агент — сотнями разів, кожен раз — десятки тисяч токенів». Перехід від першого до другого — не лінійне зростання витрат, а геометричне.
Друге, які акції виграють?
Великий сегмент не означає, що всі компанії отримають вигоду, і вже з’являються ознаки, що домінування NVIDIA у цій сфері послаблюється!
У 2026 році глобальний ринок інференційних чипів для AI — NVIDIA має приблизно 48,2% частки, AMD — 16,7%, ASIC-компанії — разом близько 18,5% (з них Google TPU — 7,8%, AWS Inferentia — 5,2%, інші ASIC — 5,5%), китайські інференційні чипи — 16,6%.
NVIDIA зберігає понад 80% частки у сегменті тренувальних рішень, але у сегменті інференції вже має менше половини — 48,2%.
Чому так?
У період тренувань NVIDIA зосереджувалася на комплексних рішеннях — високопродуктивних GPU + NVLink для швидкого з’єднання + екосистема CUDA. Ця комбінація дає перевагу у тренуванні.
Кінець статті: «Надійність NVIDIA залишилася лише 48%, де полягає можливість великої епохи інференції?»
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити