Це модель середнього рівня, найпродуктивніша в серії Sonnect. У тесті агентських здібностей SWE-bench Pro вона набрала 63,2 бали — лише на 6 балів менше за флагманську Opus 4.8 (69,2). В іншому вимірі, у тесті для аспірантів GPQA-AAA v2, Sonnet 5 навіть перевершила Opus 4.8.

Ціна ще важливіша. Під час акції вартість 1 млн вхідних токенів становить 2 долари, вихідних — 10 доларів. Для Opus 4.8 відповідні ціни — 5 і 25 доларів. Sonnet 5 за 40-60% ціни демонструє понад 90% можливостей флагмана.

Цю новину можна прочитати двома способами.

Перший: ШІ знову подешевшав. Зниження витрат вигідне всім, війна чат-ботів триває, моделі конкурують до виснаження.

Другий — і саме так ринок формує ціни — чим дешевша модель, тим дорожчі обчислення та зберігання даних.

У день виходу Claude Sonnet 5 американський напівпровідниковий індекс зріс майже на 4%. В історії ШІ за останні три роки є чітка лінія: ефективність виведення знищить попит на чипи. Але це судження помилялося на кожному етапі даних.

Зниження ціни: у тисячу разів за три роки

Почнімо з лінії зниження цін.

У 2022 році вартість виклику API рівня GPT-4 становила приблизно 0,03 долара за 1000 токенів. До 2025 року ціна моделей аналогічної продуктивності — за даними Stanford AI Index Report — впала приблизно в 280 разів. З урахуванням відкритих моделей та підвищення ефективності, загальне визнане зниження становить 1000 разів.

Знизилися ціни не лише на одну модель, а на всі.

Цього разу Anthropic Sonnet 5 за щільністю можливостей порівнюється з Opus 4.8, а ціна становить лише 40-60%. Google Gemini Omni Flash коштує 0,10 долара за секунду відеогенерації, Nano Banana 2 Lite — 4 секунди на зображення, 0,034 долара за тисячу — половина ціни попереднього покоління. DeepSeek-V4-Pro знизив вартість 1 млн вхідних токенів до 0,035 долара.

Зниження цін відбувається не лише в прайс-листах.

24 червня The Information повідомила, що OpenAI знайшла суто програмне оптимізаційне рішення — потреби в GPU для певного етапу обчислень скоротилися більш ніж удвічі, а спеціалізований пул GPU зменшився з кількох тисяч до кількох сотень. Того ж місяця Meta запропонувала схему Vistara: використання пам'яті DDR4 зі списаних серверів через власний чіп CXL у співвідношенні 3:1 з DDR5, що дозволяє знизити вартість серверів для виведення на 25%.

30 червня Jie Yue відкрила технологію спекулятивного декодування JetSpec — швидкість виведення великих моделей можна підвищити майже в 10 разів. У перерахунку на однакову кількість вихідних токенів, кількість необхідних GPU може різко зменшитись на порядок.

Якби ШІ був традиційною функцією витрат і попиту, ці сигнали мали б вказувати на одне: у майбутньому чипів потрібно менше.

Так і боялися на Волл-стріт.

У вихідні, коли DeepSeek випустив R1 у січні, акції інфраструктурних компаній ШІ зазнали найрізкішого розпродажу за останні роки. Акції хмарної ШІ-компанії Nebius впали на 40%. Історія проста: китайська відкрита модель продає токени по 0,1 долара, американська — по 2, отже попит на обчислення неминуче скоротиться.

Вибух: загальні витрати зросли на 320%

Але насправді сталося все навпаки.

Співзасновник Nebius Роман Чернін пізніше згадував: тиждень паніки через DeepSeek "можливо, був нашим найкращим тижнем продажів". Відділи закупівель компаній, побачивши різке зниження витрат, першою реакцією не скоротили бюджет, а нарешті змогли масово запустити виведення.

У 2024 році загальні витрати корпорацій світу на генеративний ШІ становили близько 11,5 мільярда доларів. У 2025 році ця цифра зросла до 37 мільярдів — на 320% за рік. За даними опитування Menlo Ventures, у 2025 році середня компанія мала "десятки" ШІ-додатків, тоді як у 2023 році — 1-2.

Дані з різних вимірів сходяться на одній кривій:

Uber у квітні 2026 року вже витратив весь річний бюджет на ШІ. AT&T наразі обробляє 27 мільярдів токенів на день — 18 місяців тому це було 800 мільйонів. Одна велика американська медична страхова компанія збільшила місячне споживання токенів з 3 мільйонів до понад 150 мільйонів.

Розкладаючи, зростання йде з трьох напрямків.

По-перше, поширення додатків. Відділ маркетингу кожної компанії використовує 3 ШІ-інструменти, відділ продажів — 4, відділ обслуговування клієнтів — 2, плюс юридичний, HR, фінансовий — від 2 до десятків, це стрибок на порядок.

По-друге, глибина окремих додатків. Наприклад, ШІ для обслуговування клієнтів: у 2023 році близько 500 взаємодій на день, кожна близько 800 токенів, після завершення розмови все закінчується. До 2025 року — 15 000 взаємодій на день, кожна близько 4500 токенів, кожна взаємодія запускає ще 3-5 подальших виведень — аналіз настроїв, прогнозування ескалації, оцінка якості — все накладається на один вхід.

По-третє, ускладнення самих моделей. Від однокрокових моделей з 7B параметрів до багатокрокових агентів з 70B+ параметрів, кожен внутрішній крок виведення споживає у десятки-сотні разів більше токенів, ніж лінійна взаємодія.

Іншими словами, вартість токена впала в тисячу разів, а кількість використаних токенів зросла в десятки тисяч разів. Чистий ефект лише в одному напрямку: вибух витрат.

Споживання токенів подвоюється кожні два місяці — кілька незалежних джерел дають однакову цифру. Якщо намалювати цю експоненційну криву до 2027 року, річні витрати корпорацій на ШІ перевищать 100 мільярдів доларів — це арифметика, а не прогноз.

Передача: пам'ять подорожчала в шість разів, інфраструктура чипів досягає 7,6 трлн

Попит, стимульований зниженням цін, не зупинився на рівні програмного забезпечення.

Зростання цін на пам'ять — це найпряміший сигнал передачі попиту на ШІ від рівня моделей до рівня обладнання.

З третього кварталу 2025 року спотові ціни на DRAM і NAND Flash зросли більш ніж на 300%. Чіпи DDR5 за один місяць подорожчали більш ніж на 90%. У 2026 році зростання не тільки не зупинилося, але й прискорилося.

У першому кварталі очікуване зростання контрактних цін на DRAM було переглянуто з 55-60% до 90-95%; NAND — з 33-38% до 55-60%. У другому кварталі TrendForce прогнозує подальше зростання DRAM на 58-63%, NAND на 70-75%.

Орієнтуючись на споживчі продукти: набір Acer Predator 32G DDR5 6000 наприкінці жовтня 2025 року коштував 1300 юанів, а до січня 2026 року злетів до 2700 юанів. Подвоєння за три місяці — надзвичайно рідкісне явище на споживчому ринку.

Підрозділ пам'яті Samsung у четвертому кварталі 2025 року зафіксував рекордний квартальний операційний прибуток — понад 20 трильйонів вон, що становить близько 96,2 мільярда юанів. Найголовнішою рушійною силою цього зростання за останній рік було не споживче оновлення телефонів або ПК, а масові закупівлі HBM, корпоративних SSD та високощільної DRAM для центрів обробки даних ШІ.

Звіт Goldman Sachs у травні підсумував цю картину до крайності.

Звіт прогнозує, що з 2026 по 2031 рік сукупні капітальні витрати на глобальну інфраструктуру ШІ становитимуть близько 7,6 трильйона доларів. У 2026 році — 765 мільярдів доларів, до 2031 року зростуть до 1,6 трильйона. З них один базовий GPU (на основі NVIDIA VR200 Rubin) оцінюється в 80 500 доларів, а NVIDIA займатиме 75% загальних витрат на обчислення в кожному періоді.

Goldman Sachs у звіті також поставив ключове питання: чи зможе масова заміна GPU на ASIC (спеціалізовані чипи) скоротити загальний попит?

Відповідь залежить від ситуації. Якщо попит нееластичний — потреби підприємств у ШІ-обчисленнях фіксовані — заміна на ASIC може безпосередньо знизити загальні потреби в капіталі. Але якщо попит еластичний — чим дешевші обчислення, тим більше купують — зміна комбінації чипів в основному перерозподіляє прибуток між різними постачальниками, а не змінює загальний обсяг витрат.

Goldman Sachs обрав другий сценарій як базовий.

Акції США також рухаються в тому ж напрямку. SanDisk з початку року зросла на 857%, Bernstein у звіті від 30 червня підвищив цільову ціну до 3000 доларів. AMD за один день зросла на 7% до історичного максимуму. Компанії, що виробляють GPU, пам'ять, пакування, обладнання для центрів обробки даних — усі на нових максимумах.

Edgen.tech у статті від 11 червня наводить найбільш вражаючу цифру: ціни на чипи пам'яті за останній рік зросли в шість разів.

Ярлик "циклічне відновлення" не підходить. Те, що подорожчало в шість разів, свідчить про те, що попит всієї економічної системи переоцінює фізичну інфраструктуру ШІ.

Корінь: Джевонс уже відповів у 1865 році

Вільям Стенлі Джевонс у 1865 році написав книгу "Вугільне питання".

Його ключове спостереження: після вдосконалення парової машини Ваттом питоме споживання вугілля значно знизилося, але загальне споживання вугілля в Британії не зменшилося, а зросло. Тому що підвищення ефективності означало, що парова потужність стала доступною в більшій кількості галузей — текстиль, залізниці, гірнича справа, судноплавство — кожен новий сценарій створював попит на вугілля, якого раніше не існувало.

Через 160 років та ж формула повторюється для ШІ-обчислень.

Компанії порахували. За ціною токена 2022 року, реальний чат обслуговування клієнтів із виведенням в реальному часі був економічно нездійсненним. Неекстрені сценарії не варті запуску ШІ. Персоналізований контент можна створювати лише на рівні сегментів, а не окремих користувачів. У 2025 році ціна впала в 1000 разів, і всі ці "раніше неіснуючі потреби" стали необхідністю.

Чернін із Nebius дав найпряміший висновок: "Кожного разу, коли ми робимо одну й ту саму одиницю інтелекту дешевшою, ми не зменшуємо споживання, а збільшуємо — тому що з тим самим бюджетом можна вирішувати складніші завдання."

Ринок проігнорував ще один структурний рушій: позитивний зворотний зв'язок валової маржі.

Крива валової маржі ШІ-виведення не має аналогів в історії. Компанія, яка надає API, може починати з валової маржі лише 10% — навчання моделі дороге, виведення дороге. Але програмна оптимізація (операторне злиття, квантування, спекулятивне декодування) щомісяця знижує витрати на виведення, а коригування цін завжди відбувається повільніше. Тому валова маржа зростає з 10% до 90% швидше, ніж у будь-якій традиційній галузі.

Валова маржа стимулює прибуток, прибуток збільшує закупівлі, закупівлі знижують витрати — позитивний зворотний зв'язок без межі.

"Якщо у вас є DRAM, ви можете продавати токени; якщо у вас немає DRAM, ви не можете продавати токени." Ця фраза стає основним рівнянням попиту на чипи для ШІ.

Два чутливі припущення у звіті Goldman Sachs також підкріплюють той самий висновок. Якщо економічний термін служби чипа скоротиться з 5 до 3 років, цикл заміни прискориться, і сукупні потреби в капіталі безпосередньо зростуть. Якщо обсяг пам'яті на чип буде на 25% вищим, ніж очікувалося — це в основному змінює розподіл витрат усередині стека чипів, але чистий вплив на загальний обсяг у 7,6 трильйона обмежений, хоча напрямок один: грошей не стане менше.

Кінець: хто тримає в руках обчислення

Зняття експортних обмежень на Fable 5 — 12 червня заборонено, 30 червня знято, три тижні — стало несподіваним коментарем до цього парадоксу.

Причина обмежень — "ризик національної безпеки". Зняття обмежень не пов'язане зі зникненням ризику — з'явилися альтернативи. Такі азійські команди, як Tulongfeng, за період обмежень випустили моделі, близькі до рівня Mythos, і стримувальний ефект блокади швидко зник. Зняття обмежень — це реальність, а не доброзичливість.

Цей епізод точно вписується в основну лінію парадоксу зниження витрат на ШІ: моделі замінні. Від GPT до Claude, DeepSeek, відкритих моделей — ніхто не може монополізувати можливості ШІ як такі. Хтось встановлює перешкоди — хтось їх обходить.

Обладнання не працює за цією логікою.

GPU — ні. DRAM — ні. Час будівництва фабрик чипів вимірюється роками. Потужність літографічних машин фіксована. Еластичність пропозиції високочистого кремнію майже нульова. Це закони фізики, а не бізнес-стратегії. Програмна оптимізація може знизити вартість моделі в тисячу разів, але не скоротить час будівництва фабрики чипів ні на день.

Кінцева точка зниження цін на ШІ-моделі, якщо цей парадокс продовжиться, не веде до зменшення потреби в обчисленнях — вона веде до повторної концентрації цінової влади на обчислення. Незалежно від того, чию модель ви використовуєте, токени мають працювати на чиїхось чипах. Кожен долар, зекономлений моделями в ціновій війні, зрештою стає доходом у бухгалтерських книгах центрів обробки даних, фабрик чипів і ліній виробництва пам'яті. Чим сильніше зниження витрат, тим незворотніша ця передача.

Попередження про ризики та умови відмови

        Ринок пов'язаний з ризиками, інвестиції потребують обережності. Ця стаття не є інвестиційною рекомендацією та не враховує особливі інвестиційні цілі, фінансовий стан чи потреби окремих користувачів. Користувачі повинні самостійно визначити, чи відповідають будь-які думки, погляди або висновки в цій статті їхній конкретній ситуації. Інвестиції на основі цього матеріалу здійснюються на власний ризик.

DRAM-8,41%

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
GateCompletesDividendDistribution
135,77K Популярність
#
StrategyBuybackSurges12%
1,27M Популярність
#
IsraelStrikesIranBTCPlunges
67,28K Популярність
#
PredictWorldCupShare20000U
545,16K Популярність
#
TrumpDisclosesOver100MBTCETH
3,83M Популярність

Закріплено

карта сайту

Чим дешевший AI, тим дорожчі чіпи.

Зниження ціни: у тисячу разів за три роки

Вибух: загальні витрати зросли на 320%

Передача: пам'ять подорожчала в шість разів, інфраструктура чипів досягає 7,6 трлн

Корінь: Джевонс уже відповів у 1865 році

Кінець: хто тримає в руках обчислення

Популярні теми

GateCompletesDividendDistribution

StrategyBuybackSurges12%

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

TrumpDisclosesOver100MBTCETH

Закріплено