Ф'ючерси
Сотні безстрокових контрактів
TradFi
Золото
Одна платформа для світових активів
Опціони
Hot
Торгівля ванільними опціонами європейського зразка
Єдиний рахунок
Максимізуйте ефективність вашого капіталу
Демо торгівля
Вступ до ф'ючерсної торгівлі
Підготуйтеся до ф’ючерсної торгівлі
Ф'ючерсні події
Заробляйте, беручи участь в подіях
Демо торгівля
Використовуйте віртуальні кошти для безризикової торгівлі
Запуск
CandyDrop
Збирайте цукерки, щоб заробити аірдропи
Launchpool
Швидкий стейкінг, заробляйте нові токени
HODLer Airdrop
Утримуйте GT і отримуйте масові аірдропи безкоштовно
Pre-IPOs
Отримайте повний доступ до глобальних IPO акцій.
Alpha Поінти
Ончейн-торгівля та аірдропи
Ф'ючерсні бали
Заробляйте фʼючерсні бали та отримуйте аірдроп-винагороди
Інвестиції
Simple Earn
Заробляйте відсотки за допомогою неактивних токенів
Автоінвестування
Автоматичне інвестування на регулярній основі
Подвійні інвестиції
Прибуток від волатильності ринку
Soft Staking
Earn rewards with flexible staking
Криптопозика
0 Fees
Заставте одну криптовалюту, щоб позичити іншу
Центр кредитування
Єдиний центр кредитування
Центр багатства VIP
Преміальні плани зростання капіталу
Управління приватним капіталом
Розподіл преміальних активів
Квантовий фонд
Квантові стратегії найвищого рівня
Стейкінг
Стейкайте криптовалюту, щоб заробляти на продуктах PoS
Розумне кредитне плече
Кредитне плече без ліквідації
Випуск GUSD
Мінтинг GUSD для прибутку RWA
Акції
AI
Gate AI
Ваш універсальний AI-помічник для спілкування
Gate AI Bot
Використовуйте Gate AI безпосередньо у своєму соціальному додатку
GateClaw
Gate Блакитний Лобстер — готовий до використання
Gate for AI Agent
AI-інфраструктура, Gate MCP, Skills і CLI
Gate Skills Hub
Понад 10 000 навичок
Від офісу до трейдингу: універсальна база навичок для ефективнішої роботи з AI
GateRouter
Розумний вибір із понад 30 моделей ШІ, без додаткових витрат (0%)
«Надійність NVIDIA залишилася лише 48%, де полягає можливість великої епохи інференції?»
Це дев’ята стаття з серії AI інвестиційного дослідження на 100 статей, 20 000 слів, рекомендується спершу зберегти, мало хто зможе прочитати повністю.
У попередніх статтях розглядалися Intel, AMD, ARM. Вони за минулий рік значно підняли свої цінники — AMD подвоїлася, Intel потроїлася, ARM також досягла історичних максимумів. Після зростання виникає просте питання: чи можна ще тримати ці акції? Чи є ще можливості у тих, хто не піднімався?
Щоб відповісти на це питання, неможливо обійтися без ключового слова — інференція. У попередніх компаніях, що зросли, в аналізах багато разів з’являються ці два слова.
Отже: наскільки великий сегмент інференції? На якій стадії зараз? Які компанії виграють? Які вже закладені у ринкову ціну, а які ще ні?
Це потрібно зрозуміти першочергово.
Один, наскільки великий сегмент
Навчання моделей — це «писати програми», інференція — «процес виклику цієї програми щодня». Після тренування GPT щодня запитують мільярди людей, кожен запит споживає обчислювальні ресурси для інференції. Claude Code виконує одну задачу, агент сам проходить сто раундів, кожен — це інференція.
Багато галузевих досліджень і медіа посилаються на одне й те саме: після запуску моделі у виробництво, інференція стане головною статтею витрат життєвого циклу, за оцінками — 80-90%. Тобто у майбутній епосі AI, 10 доларів — 8 витрат на інференцію.
Але за останні три роки майже весь дискурс був навколо тренування, бо це більш «сексуальна» історія — скільки H100, скільки параметрів, хто швидше натренує наступне покоління моделей. Інференція вважалася додатковою після тренування.
Це перекручення уявлень починає змінюватися, і саме це — причина переоцінки цінності наприкінці минулого року для цілої групи напівпровідникових компаній.
А наскільки великий сегмент інференції? Конкретно можна оцінити з п’яти аспектів.
Перший — кількість користувачів. ChatGPT має 900 мільйонів активних тижнево, 50 мільйонів платних. Для Китаю — ще більш прямий показник — щоденне використання токенів зросло з початку 2024 року з 100 мільярдів до 140 трильйонів у 2026 році, у 1400 разів. Ця цифра ще далека від насичення.
Другий — інтенсивність використання. Обсяг обробки токенів OpenAI у жовтні 2025 року становив 6 мільярдів за хвилину, у квітні 2026 — вже 15 мільярдів, за півроку зросло у 2,5 рази. Доходи від корпоративної версії перевищують 40%, а корпоративні користувачі використовують у десятки разів більше.
Третій — довжина діалогу. Початково — кілька сотень токенів, зараз API DeepSeek вказує довжину контексту V4 Pro / Flash до 1 мільйона, максимальний вихід — 384 тисячі. Чим довший контекст, тим більше пам’яті та обчислювальної потужності потрібно для однієї інференції.
Четвертий — сама модель стає все більш ресурсомісткою. Моделі reasoning, такі як OpenAI o1, DeepSeek R1, Claude, перед відповіддю «думають» внутрішньо кілька тисяч або десятки тисяч токенів. Хуанг Женьхун у прикладі DeepSeek R1 зазначав, що інференційні моделі можуть потребувати значно більшої кількості обчислень — у сотні разів.
Раніше ви ставили AI запит — він одразу давав відповідь; тепер — якщо поставити складне питання, він спершу думає півхвилини, а потім відповідає. Це «думання півхвилини» — новий витратний фактор.
П’яте — агент. Зазвичай один агент виконує 10-100 викликів моделі. Щотижнева активність OpenAI Codex вже перевищує 3 мільйони — це лише один продукт однієї компанії. Оцінка фахівця з AI-індустрії — загальні витрати на обчислювальні ресурси AI-агентів можуть перевищувати у 10 разів витрати на великі мовні моделі з аналогічною кількістю параметрів.
Перемноживши ці п’ять факторів, можна зробити висновок, що у найближчі 3-5 років попит на інференцію зросте у кілька порядків — це не перебільшення, а все більш поширена оцінка.
В економіці існує старий феномен — парадокс Джевонса: підвищення ефективності використання ресурсу призводить до зростання його загального споживання, бо стає дешевше і більше сценаріїв його застосування. Після підвищення ефективності парової машини споживання вугілля у Великій Британії стрімко зросло; після зниження ціни токенів інференції, кількість викликів AI стрімко зросла. Це один і той самий сценарій. Міжнародне енергетичне агентство (IEA) підрахувало, що глобальне споживання електроенергії у дата-центрах зросте з 1,5% у 2024 році до 945 ТВт-год у 2030 — приблизно у два рази, що відповідає річному споживанню Німеччини та Франції разом.
Крім того, конкретні дії галузі підтверджують цю тенденцію:
ARR Anthropic з кінця 2024 року — 1 мільярд доларів, а до початку 2026 — 30 мільярдів доларів — за 14 місяців у 30 разів. Щоб підтримати цю криву, компанія у 2025-2026 роках заклала понад 11 ГВт обчислювальної потужності, зокрема замовила у Broadcom TPU на 21 мільярд доларів. OpenAI вже пообіцяла розгорнути 10 ГВт власних чипів. Google підвищила ціль по поставках TPU у 2026 році на 50% — до 6 мільйонів штук.
Капітальні витрати хмарних провайдерів ще більш очевидні. Google у 2026 році планує витратити 1750-1850 мільярдів доларів, майже у два рази більше, ніж у 2025; Amazon — 200 мільярдів доларів; Meta — збільшить витрати на 65% до 118 мільярдів доларів. Загалом, капітальні витрати восьми великих хмарних компаній у 2026 році перевищать 600 мільярдів доларів, зростаючи на 40% щороку.
Об’єднуючи ці дані, можна зробити простий висновок — попит на інференцію вже перевищує можливості будь-якого апаратного постачальника.
Це і є головна характеристика сегменту інференції: у тренувальну епоху — «створити бога», у епоху інференції — «цей бог викликають сотнями мільйонів людей щодня, кожен агент — сотнями разів, кожен раз — десятки тисяч токенів». Перехід від першого до другого — не лінійне зростання витрат, а геометричне.
Друге, які акції виграють?
Великий сегмент не означає, що всі компанії отримають вигоду, і вже з’являються ознаки, що домінування NVIDIA у цій сфері послаблюється!
У 2026 році глобальний ринок інференційних чипів для AI — NVIDIA має приблизно 48,2% частки, AMD — 16,7%, ASIC-компанії — разом близько 18,5% (з них Google TPU — 7,8%, AWS Inferentia — 5,2%, інші ASIC — 5,5%), китайські інференційні чипи — 16,6%.
NVIDIA зберігає понад 80% частки у сегменті тренувальних рішень, але у сегменті інференції вже має менше половини — 48,2%.
Чому так?
У період тренувань NVIDIA зосереджувалася на комплексних рішеннях — високопродуктивних GPU + NVLink для швидкого з’єднання + екосистема CUDA. Ця комбінація дає перевагу у тренуванні.
Кінець статті: «Надійність NVIDIA залишилася лише 48%, де полягає можливість великої епохи інференції?»