Коригування сектора зберігання — це помилка у вбивстві чи колапс логіки?

Цього тижня з’явився новий технічний реліз від Google — і він прямо «вбив» сектор зберігання. Наприклад, у випадку Micron Technology одразу прийшли п’ять поспіль спадних днів; і в A股 (Китайська фондова біржа) пов’язані інструменти теж так само пішли корекцією.

TurboQuant — це стиснювальне рішення, яке заявляє, що може скоротити потребу в зберіганні KV Cache для довгих текстів у 6 разів, а швидкість виводу (inference) підвищити в 8 разів. Після релізу акції компаній зі зберігання дружно пірнули вниз, і багато хто почав кричати: «AI-споживання в зберіганні зникне».

Але якщо вдуматися, хіба це не трохи знайома історія? Коли вийшла технологія GQA у 2023 році, тоді теж казали, що потреба в KV Cache буде скорочена наполовину, а сектор зберігання «охолоне»; у 2024 році, коли з’явився PagedAttention, та сама риторика повторилася знову.

То що вийшло зрештою? За ці два минулі роки глобальне споживання токенів у великих моделях прямо виросло щонайменше в 10 разів, а попит на зберігання — навпаки, зростав дедалі сильніше.

01 Правда про TurboQuant: стиснення не обов’язково є негативом

Багато хто, почувши цифру «6-кратне стиснення», думає: невже попит на зберігання скоротиться в 6 разів? Невже це не означає кінець для виробників пам’яті?

Якщо так думати, то ви просто переплутали логіку цієї технології.

Скажімо просто: KV Cache — це те, що велика модель повинна зберігати під час виводу, щоб тримати в контексті попередній діалог; інакше вона забудe, що саме ви їй казали. Цей компонент займає більшу частину потреб у пам’яті на етапі виводу. А TurboQuant стискає саме для того, щоб вирішити ключовий вузол у AI-виводі — «стіна пам’яті» (memory wall).

Сьогодні контекст великих моделей уже зріс із минулих 4K до 128K, а також до рівнів у мільйони й навіть до десятків мільйонів токенів; і паралельних запитів на вивід стає дедалі більше. Якщо не робити стиснення, навіть якщо скласти всю HBM докупи, це все одно може не вистачити, а ще вартість перенесення даних значно вища за вартість обчислень, і це різко гальмує швидкість виводу.

Отже, стиснення потрібно для того, щоб довгі контексти та високопаралельний вивід могли працювати, а не для того, щоб менше використовувати пам’ять.

До того ж, це взагалі не «новинка», індустрія давно вже рухається в цьому напрямі.

У 2023 році GQA стиснула KV Cache у 4–8 разів; у 2024 році кількісне квантування та PagedAttention знову дали стиснення в 2–4 рази. Кожного разу хтось казав, що попит на зберігання зникне; а що було далі?

Після кожного стиснення учасники ринку отримували змогу розкривати «все» — робити довші контексти, більше паралельних запитів. Те, що раніше було неможливим через обмеження, стало доступним; а новий попит, натомість, заповнював простір, який ніби «вивільнили» завдяки стисненню — і навіть його не вистачало.

Це і є ефект Джевонса в економіці: найтиповіший приклад — стиснення відео. Коли тоді вийшли H.264 та H.265 і скоротили потребу в зберіганні одиниці відео майже наполовину, люди натомість почали робити 4K і 8K відео високої якості, а нині навіть 10-хвилинні відео — розміром легко 10GB+; зрештою загальний попит на зберігання відео зріс у десятки разів.

TurboQuant — те саме за логікою. Стиснення в 6 разів виглядає дуже великим, але подивіться на ріст попиту: у лютому 2026 року глобальне споживання токенів великою моделлю — у 10 разів більше, ніж у відповідний період минулого року; а до 2028 року обсяг глобальних даних має зрости до 394ZB — більше ніж у 5 разів порівняно з 2020 роком. Це стиснення перед обличчям експоненційного зростання попиту — просто крапля в морі.

Більш того, зниження витрат, яке приносить стиснення, звільняє місце для появи нового попиту.

Раніше довгоконтекстний вивід був надто дорогим — багато компаній не могли собі дозволити. Тепер, коли витрати знизилися, вони сміливіше його використовують. Хмарні провайдери теж наважуються зняти обмеження на довжину контексту та на паралельність. У підсумку загальний попит на зберігання ще більше роздувається.

Говорячи просто, TurboQuant — це оптимізація з боку пропозиції, а не зникнення попиту. Це оптимізація для полегшення «стіни пам’яті» на тлі дефіциту HBM з боку постачання.

У короткостроковій перспективі дефіцит попиту та пропозиції HBM зберігатиметься, і навіть через вивільнення нового попиту цей розрив лише збільшуватиметься.

02 Сезон сприятливої кон’юнктури на довгому горизонті зіткнувся з геополітичним «чорним лебедем»

Насправді, ще до цієї волатильності TurboQuant, індустрія зберігання вже давно увійшла в суперсприятливий цикл: точка «ідеальної» рівноваги між попитом і пропозицією вже була доведена до максимуму.

З боку попиту, вибух AI підняв потребу в зберіганні до небачених висот.

Раніше попит на зберігання тримався на ПК і смартфонах; тепер же AI-сервери та мультимодальні застосунки стали новим двигуном.

Seedance2.0 від ByteDance: на 10-хвилинне відео витрачаються токени, які у десятки разів більші, ніж для тексту. Нова архітектура від NVIDIA прямо перетворила потребу в NAND з рівня TB на рівень PB; місткість одного стійкового (server rack) контейнера зросла прямо в 5 разів.

Усі глобальні інтернет-гіганти божеволіють і нарощують інфраструктуру обчислювальних потужностей. У 2026 році капітальні витрати (capex) восьми найбільших CSP (хмарних сервіс-провайдерів) мають зрости на 25% — до 500 млрд доларів США; і більша частина цих грошей піде в AI-інфраструктуру, де зберігання — один із найключовіших «must-have» запитів.

А з боку пропозиції три найбільші закордонні гіганти пам’яті — Samsung, SK hynix і Micron — давно «заблокували» свої виробничі потужності.

Після збитків минулого циклу розширення зараз для них надто обережне; і всі нові потужності вони «впихають» у HBM та DDR5 — високоприбуткові висококласні продукти. Натомість потужності для low-end DRAM і NAND скорочуються.

Ще страшніше те, що потужності для висококласного HBM просто неможливо наростити.

Побудувати чисту кімнату (clean room) потрібно 8–12 місяців, а нарощування виходу придатної продукції (підйом yield) займає ще довше.

Зараз запаси трьох OEM-виробників уже на історично мінімальному рівні — 3–5 тижнів. Тобто, коли те, що є на руках, буде продано, наступна партія ще не буде вироблена — і пропозиція стає абсолютно «жорсткою» (deficitною) до межі.

Ця жорстка рівновага попиту й пропозиції вже кілька місяців підштовхує ціни на пам’ять вгору.

Найкраще підтвердження — останній фінансовий звіт Micron. У FY26Q2 його виручка одразу дійшла до 23.86 млрд доларів США, що на 196% більше в річному порівнянні; чистий прибуток — 14.021 млрд доларів США, що на 686% більше; операційна маржа (gross margin) одразу склала 69%. Це й є сила суперциклу.

І саме в цей момент, конфлікт навколо Гормузької протоки (Hormuz) прямо підкинув ще одну «крижину» у вже максимально напружену рівновагу попиту й пропозиції.

Вам треба знати: більша частина глобальних потужностей із виробництва пам’яті знаходиться в Кореї — Samsung і SK hynix разом займають 70% глобальних потужностей DRAM. А в Кореї 70% імпорту нафти припадає на Близький Схід — майже все завозять через протоку Гормуз.

Ще страшніше: рідкісні гази, які необхідні для виробництва пам’яті, наприклад, гелій. У Кореї 64.7% гелію — це надходження з Катару, а гелій у Катарі вже призупинили (зупинено виробництво), через що урізали 30% глобальних поставок. Також є неон: більшість неону у світі походить з Ірану; і тепер ці речі стають «бомбами зі сховищеним таймером» для ланцюга постачання.

Ось реальний стан індустрії пам’яті зараз: довга логіка — це суперцикл попиту, який приносить AI; пропозиція жорстка, а ціни тривають висхідно. Коротка логіка — геополітичний конфлікт навколо Гормузу, який напряму вдарив у «вразливу точку» закордонних виробничих потужностей пам’яті, ще більше стискаючи і без того напружену пропозицію.

03 Хто зможе підхопити цей глобальний дефіцит пропозиції?

Багато хто запитає: а тоді де в цей момент можливості для вітчизняного (domestic) сегменту пам’яті? Які підсегменти варто найбільше відстежувати?

Насправді все просто: візьміть два ключові напрямки. Перше — знайти ланцюги пропозиції, які найбільше вразливі до геополітичних збоїв з-за кордону. Друге — знайти вітчизняних лідерів, які вже зробили технологічні прориви й підготували потужності. Саме вони зможуть закрити цей раптовий розрив.

Перш за все — сегменти, пов’язані з висококласними HBM і DRAM.

Подумайте самі: потужності Samsung і SK hynix уже були наперед «замкнені» NVIDIA. Якщо ж у них зупиниться постачання через проблеми з енергією чи сировиною — хто має закрити цей розрив?

Звісно, першою чергою — upstream (вище по ланцюгу) вітчизняні заводи з виробництва кристалів (wafer fabs) для пам’яті. Зараз їхні потужності швидко розширюються, вихід придатної продукції (yield) вже покращився, і вони також інтенсивно працюють над R&D у напрямку HBM. Якщо постачання з-за кордону зламається, клієнти можуть самі пришвидшити валідацію вітчизняної продукції.

Є також midstream (середня ланка) — модульні рішення для зберігання (storage modules).

Наприклад, JiangboLong і 佰维存储 (Baiwei Storage). Ці компанії вже мають зрілі канали клієнтів: якщо постачання кристалів із-за кордону зірветься, а ціни підскочать, вони можуть спиратися на вітчизняні потужності з виробництва кристалів і запропонувати клієнтам більш стабільні та дешевші продукти пам’яті.

Раніше всі думали, що закордонні ланцюги постачання дуже надійні, тож не хотіли ризикувати й переходити на вітчизняне. Але геополітичний конфлікт просто «бив» по всіх: виявляється, що ланцюги постачання з-за кордону також можуть перериватися; виявляється, якщо поставити весь обсяг потужностей на закордон, ризик настільки великий?

Крім того, зростання цін на нафту розганяє витрати закордонних компаній до небес, а перевага вітчизняних за співвідношенням ціна/якість стає ще очевиднішою.

Підсумовуючи: довга логіка в пам’яті — це суперцикл попиту, що приносить AI, і десятирічний «марафон» імпортозаміщення; короткий каталізатор — це саме цей геополітичний конфлікт, який прискорює весь процес.

Втім, з огляду на те, що сектор уже загалом суттєво виріс до цього, і, можливо, ринок уже достатньо відобразив оптимістичні очікування, подальші інвестиції мають враховувати множинні ризики:

Ризик розвитку AI нижче очікувань: зараз AI постійно підвищує попит на пам’ять; якщо технологічний прогрес у великих моделях буде повільнішим, ніж очікується, не виключений ризик перегляду (зниження) AI Capex, що вплине на попит.

Ризик зниження цін на пам’ять: через те, що ціни на пам’ять різко зросли, у торгівельних каналах трапляються явища спекулятивного накопичення запасів. Якщо надмірне спекулювання вплине на попит з боку нижньої ланки, існує ризик падіння цін.

Ризик невідповідного прогресу R&D: компаніям з пам’яті потрібно безперервно виконувати оновлення продуктів і інновації. Якщо станеться помилка в стратегічному виборі або це призведе до ризику провалу розробки.

04 Висновок

Якщо подивитися на історію глобальної індустрії зберігання, кожен геополітичний конфлікт прискорює перебудову ланцюгів постачання; кожна технічна революція породжує повністю нові потреби в зберіганні.

І зараз ми стоїмо на перетині революції AI та перебудови ланцюгів постачання: пам’ять — це ключова «тема» (core track), на яку одночасно вказують ці дві хвилі.

Звісно, інвестиції в будь-який сегмент не можуть бути абсолютно безхмарними. Індустрія зберігання все ще стикається з ризиками, зокрема зміною торговельної політики за кордоном, посиленням конкурентної боротьби в галузі, а також тим, що технічні цикли можуть йти повільніше, ніж очікувалось. Це також означає, що нам потрібно постійно стежити за змінами в галузі, відокремлювати факти від вигадок (відсіювати хибне), і знаходити компанії, які справді мають ключову конкурентоспроможність.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити