Коригування сектора зберігання — це помилка у вбивстві чи колапс логіки?

Question

Цього тижня з’явився новий технічний реліз від Google — і він прямо «вбив» сектор зберігання. Наприклад, у випадку Micron Technology одразу прийшли п’ять поспіль спадних днів; і в A股 (Китайська фондова біржа) пов’язані інструменти теж так само пішли корекцією.

TurboQuant — це стиснювальне рішення, яке заявляє, що може скоротити потребу в зберіганні KV Cache для довгих текстів у 6 разів, а швидкість виводу (inference) підвищити в 8 разів. Після релізу акції компаній зі зберігання дружно пірнули вниз, і багато хто почав кричати: «AI-споживання в зберіганні зникне».

Але якщо вдуматися, хіба це не трохи знайома історія? Коли вийшла технологія GQA у 2023 році, тоді теж казали, що потреба в KV Cache буде скорочена наполовину, а сектор зберігання «охолоне»; у 2024 році, коли з’явився PagedAttention, та сама риторика повторилася знову.

То що вийшло зрештою? За ці два минулі роки глобальне споживання токенів у великих моделях прямо виросло щонайменше в 10 разів, а попит на зберігання — навпаки, зростав дедалі сильніше.

01 Правда про TurboQuant: стиснення не обов’язково є негативом

Багато хто, почувши цифру «6-кратне стиснення», думає: невже попит на зберігання скоротиться в 6 разів? Невже це не означає кінець для виробників пам’яті?

Якщо так думати, то ви просто переплутали логіку цієї технології.

Скажімо просто: KV Cache — це те, що велика модель повинна зберігати під час виводу, щоб тримати в контексті попередній діалог; інакше вона забудe, що саме ви їй казали. Цей компонент займає більшу частину потреб у пам’яті на етапі виводу. А TurboQuant стискає саме для того, щоб вирішити ключовий вузол у AI-виводі — «стіна пам’яті» (memory wall).

Сьогодні контекст великих моделей уже зріс із минулих 4K до 128K, а також до рівнів у мільйони й навіть до десятків мільйонів токенів; і паралельних запитів на вивід стає дедалі більше. Якщо не робити стиснення, навіть якщо скласти всю HBM докупи, це все одно може не вистачити, а ще вартість перенесення даних значно вища за вартість обчислень, і це різко гальмує швидкість виводу.

Отже, стиснення потрібно для того, щоб довгі контексти та високопаралельний вивід могли працювати, а не для того, щоб менше використовувати пам’ять.

До того ж, це взагалі не «новинка», індустрія давно вже рухається в цьому напрямі.

У 2023 році GQA стиснула KV Cache у 4–8 разів; у 2024 році кількісне квантування та PagedAttention знову дали стиснення в 2–4 рази. Кожного разу хтось казав, що попит на зберігання зникне; а що було далі?

Після кожного стиснення учасники ринку отримували змогу розкривати «все» — робити довші контексти, більше паралельних запитів. Те, що раніше було неможливим через обмеження, стало доступним; а новий попит, натомість, заповнював простір, який ніби «вивільнили» завдяки стисненню — і навіть його не вистачало.

Це і є ефект Джевонса в економіці: найтиповіший приклад — стиснення відео. Коли тоді вийшли H.264 та H.265 і скоротили потребу в зберіганні одиниці відео майже наполовину, люди натомість почали робити 4K і 8K відео високої якості, а нині навіть 10-хвилинні відео — розміром легко 10GB+; зрештою загальний попит на зберігання відео зріс у десятки разів.

TurboQuant — те саме за логікою. Стиснення в 6 разів виглядає дуже великим, але подивіться на ріст попиту: у лютому 2026 року глобальне споживання токенів великою моделлю — у 10 разів більше, ніж у відповідний період минулого року; а до 2028 року обсяг глобальних даних має зрости до 394ZB — більше ніж у 5 разів порівняно з 2020 роком. Це стиснення перед обличчям експоненційного зростання попиту — просто крапля в морі.

Більш того, зниження витрат, яке приносить стиснення, звільняє місце для появи нового попиту.

Раніше довгоконтекстний вивід був надто дорогим — багато компаній не могли собі дозволити. Тепер, коли витрати знизилися, вони сміливіше його використовують. Хмарні провайдери теж наважуються зняти обмеження на довжину контексту та на паралельність. У підсумку загальний попит на зберігання ще більше роздувається.

Говорячи просто, TurboQuant — це оптимізація з боку пропозиції, а не зникнення попиту. Це оптимізація для полегшення «стіни пам’яті» на тлі дефіциту HBM з боку постачання.

У короткостроковій перспективі дефіцит попиту та пропозиції HBM зберігатиметься, і навіть через вивільнення нового попиту цей розрив лише збільшуватиметься.

02 Сезон сприятливої кон’юнктури на довгому горизонті зіткнувся з геополітичним «чорним лебедем»

Насправді, ще до цієї волатильності TurboQuant, індустрія зберігання вже давно увійшла в суперсприятливий цикл: точка «ідеальної» рівноваги між попитом і пропозицією вже була доведена до максимуму.

З боку попиту, вибух AI підняв потребу в зберіганні до небачених висот.

Раніше попит на зберігання тримався на ПК і смартфонах; тепер же AI-сервери та мультимодальні застосунки стали новим двигуном.

Seedance2.0 від ByteDance: на 10-хвилинне відео витрачаються токени, які у десятки разів більші, ніж для тексту. Нова архітектура від NVIDIA прямо перетворила потребу в NAND з рівня TB на рівень PB; місткість одного стійкового (server rack) контейнера зросла прямо в 5 разів.

Усі глобальні інтернет-гіганти божеволіють і нарощують інфраструктуру обчислювальних потужностей. У 2026 році капітальні витрати (capex) восьми найбільших CSP (хмарних сервіс-провайдерів) мають зрости на 25% — до 500 млрд доларів США; і більша частина цих грошей піде в AI-інфраструктуру, де зберігання — один із найключовіших «must-have» запитів.

А з боку пропозиції три найбільші закордонні гіганти пам’яті — Samsung, SK hynix і Micron — давно «заблокували» свої виробничі потужності.

Після збитків минулого циклу розширення зараз для них надто обережне; і всі нові потужності вони «впихають» у HBM та DDR5 — високоприбуткові висококласні продукти. Натомість потужності для low-end DRAM і NAND скорочуються.

Ще страшніше те, що потужності для висококласного HBM просто неможливо наростити.

Побудувати чисту кімнату (clean room) потрібно 8–12 місяців, а нарощування виходу придатної продукції (підйом yield) займає ще довше.

Зараз запаси трьох OEM-виробників уже на історично мінімальному рівні — 3–5 тижнів. Тобто, коли те, що є на руках, буде продано, наступна партія ще не буде вироблена — і пропозиція стає абсолютно «жорсткою» (deficitною) до межі.

Ця жорстка рівновага попиту й пропозиції вже кілька місяців підштовхує ціни на пам’ять вгору.

Найкраще підтвердження — останній фінансовий звіт Micron. У FY26Q2 його виручка одразу дійшла до 23.86 млрд доларів США, що на 196% більше в річному порівнянні; чистий прибуток — 14.021 млрд доларів США, що на 686% більше; операційна маржа (gross margin) одразу склала 69%. Це й є сила суперциклу.

І саме в цей момент, конфлікт навколо Гормузької протоки (Hormuz) прямо підкинув ще одну «крижину» у вже максимально напружену рівновагу попиту й пропозиції.

Вам треба знати: більша частина глобальних потужностей із виробництва пам’яті знаходиться в Кореї — Samsung і SK hynix разом займають 70% глобальних потужностей DRAM. А в Кореї 70% імпорту нафти припадає на Близький Схід — майже все завозять через протоку Гормуз.

Ще страшніше: рідкісні гази, які необхідні для виробництва пам’яті, наприклад, гелій. У Кореї 64.7% гелію — це надходження з Катару, а гелій у Катарі вже призупинили (зупинено виробництво), через що урізали 30% глобальних поставок. Також є неон: більшість неону у світі походить з Ірану; і тепер ці речі стають «бомбами зі сховищеним таймером» для ланцюга постачання.

Ось реальний стан індустрії пам’яті зараз: довга логіка — це суперцикл попиту, який приносить AI; пропозиція жорстка, а ціни тривають висхідно. Коротка логіка — геополітичний конфлікт навколо Гормузу, який напряму вдарив у «вразливу точку» закордонних виробничих потужностей пам’яті, ще більше стискаючи і без того напружену пропозицію.

03 Хто зможе підхопити цей глобальний дефіцит пропозиції?

Багато хто запитає: а тоді де в цей момент можливості для вітчизняного (domestic) сегменту пам’яті? Які підсегменти варто найбільше відстежувати?

Насправді все просто: візьміть два ключові напрямки. Перше — знайти ланцюги пропозиції, які найбільше вразливі до геополітичних збоїв з-за кордону. Друге — знайти вітчизняних лідерів, які вже зробили технологічні прориви й підготували потужності. Саме вони зможуть закрити цей раптовий розрив.

Перш за все — сегменти, пов’язані з висококласними HBM і DRAM.

Подумайте самі: потужності Samsung і SK hynix уже були наперед «замкнені» NVIDIA. Якщо ж у них зупиниться постачання через проблеми з енергією чи сировиною — хто має закрити цей розрив?

Звісно, першою чергою — upstream (вище по ланцюгу) вітчизняні заводи з виробництва кристалів (wafer fabs) для пам’яті. Зараз їхні потужності швидко розширюються, вихід придатної продукції (yield) вже покращився, і вони також інтенсивно працюють над R&D у напрямку HBM. Якщо постачання з-за кордону зламається, клієнти можуть самі пришвидшити валідацію вітчизняної продукції.

Є також midstream (середня ланка) — модульні рішення для зберігання (storage modules).

Наприклад, JiangboLong і 佰维存储 (Baiwei Storage). Ці компанії вже мають зрілі канали клієнтів: якщо постачання кристалів із-за кордону зірветься, а ціни підскочать, вони можуть спиратися на вітчизняні потужності з виробництва кристалів і запропонувати клієнтам більш стабільні та дешевші продукти пам’яті.

Раніше всі думали, що закордонні ланцюги постачання дуже надійні, тож не хотіли ризикувати й переходити на вітчизняне. Але геополітичний конфлікт просто «бив» по всіх: виявляється, що ланцюги постачання з-за кордону також можуть перериватися; виявляється, якщо поставити весь обсяг потужностей на закордон, ризик настільки великий?

Крім того, зростання цін на нафту розганяє витрати закордонних компаній до небес, а перевага вітчизняних за співвідношенням ціна/якість стає ще очевиднішою.

Підсумовуючи: довга логіка в пам’яті — це суперцикл попиту, що приносить AI, і десятирічний «марафон» імпортозаміщення; короткий каталізатор — це саме цей геополітичний конфлікт, який прискорює весь процес.

Втім, з огляду на те, що сектор уже загалом суттєво виріс до цього, і, можливо, ринок уже достатньо відобразив оптимістичні очікування, подальші інвестиції мають враховувати множинні ризики:

Ризик розвитку AI нижче очікувань: зараз AI постійно підвищує попит на пам’ять; якщо технологічний прогрес у великих моделях буде повільнішим, ніж очікується, не виключений ризик перегляду (зниження) AI Capex, що вплине на попит.

Ризик зниження цін на пам’ять: через те, що ціни на пам’ять різко зросли, у торгівельних каналах трапляються явища спекулятивного накопичення запасів. Якщо надмірне спекулювання вплине на попит з боку нижньої ланки, існує ризик падіння цін.

Ризик невідповідного прогресу R&D: компаніям з пам’яті потрібно безперервно виконувати оновлення продуктів і інновації. Якщо станеться помилка в стратегічному виборі або це призведе до ризику провалу розробки.

04 Висновок

Якщо подивитися на історію глобальної індустрії зберігання, кожен геополітичний конфлікт прискорює перебудову ланцюгів постачання; кожна технічна революція породжує повністю нові потреби в зберіганні.

І зараз ми стоїмо на перетині революції AI та перебудови ланцюгів постачання: пам’ять — це ключова «тема» (core track), на яку одночасно вказують ці дві хвилі.

Звісно, інвестиції в будь-який сегмент не можуть бути абсолютно безхмарними. Індустрія зберігання все ще стикається з ризиками, зокрема зміною торговельної політики за кордоном, посиленням конкурентної боротьби в галузі, а також тим, що технічні цикли можуть йти повільніше, ніж очікувалось. Це також означає, що нам потрібно постійно стежити за змінами в галузі, відокремлювати факти від вигадок (відсіювати хибне), і знаходити компанії, які справді мають ключову конкурентоспроможність.

Коригування сектора зберігання — це помилка у вбивстві чи колапс логіки?

01 Правда про TurboQuant: стиснення не обов’язково є негативом

02 Сезон сприятливої кон’юнктури на довгому горизонті зіткнувся з геополітичним «чорним лебедем»

03 Хто зможе підхопити цей глобальний дефіцит пропозиції?

04 Висновок

Популярні теми

WinGoldBarsWithGrowthPoints

RangeTradingStrategy

IsraelStrikesIranBTCPlunges

BitcoinWeakens

FedRateHikeExpectationsResurface

Популярні активності Gate Fun

TLR

Telluria

BROSS

BROSS

ygb

toket

Cartoon

Cartooncoin

紫薇币

ZW

Закріпити