Стаття: «Злом» купу бикових акцій — чим вищий рівень ефективності, тим більший попит?

robot
Генерація анотацій у процесі

26 березня світовий ринок пам’ятевих чипів зазнав паніки через академічну статтю.

Ціни на акції компаній, що виробляють пам’ятеві чипи, різко впали. 26 березня закриття А-акцій показало, що компанія 恒烁股份 втратила понад 6%,兆易创新, 佰维存储,朗科科技 — понад 5%, а також 江波龙, 北京君正 та інші акції знизилися. В той же день на відкритті американського ринку сектор пам’ятевих чипів зазнав загального падіння: станом на 22:30 за київським часом, SanDisk — понад 6%, Micron Technology та Western Digital — понад 4%, Seagate Technology — понад 3%.

Ця волатильність стала наслідком академічної статті, яка буде офіційно представлена на Міжнародній конференції з представлення навчання (ICLR 2026), яку розробляє дослідницький інститут Google. У статті описується нова технологія стиснення пам’яті AI — “TurboQuant”, яка стверджує, що може зменшити споживання кеш-пам’яті у великих мовних моделях (LLM) у шість разів і забезпечити до 8-кратного прискорення роботи на GPU NVIDIA H100.

Зараз ринок сприймає цю новину як удар по попиту на апаратне забезпечення для зберігання даних, але які будуть довгострокові реальні наслідки за панічних продажів?

“Pied Piper” у реальності

Що саме вирішує TurboQuant?

Одним із головних вузьких місць у роботі великих моделей є “ключ-значення кеш” (KV Cache). Простими словами, коли користувач спілкується з AI, модель повинна пам’ятати попередній контекст — це і є KV Cache. З розширенням контекстного вікна з кількох тисяч токенів до мільйонів або десятків мільйонів, споживання пам’яті KV Cache зростає експоненційно, стаючи ключовим фактором у витратах на обчислення.

Досліджуючи статтю, автори з’ясували, що TurboQuant — це в основі свого — надзвичайно ефективний алгоритм кількісного стиснення. Традиційні методи кількісного стиснення вимагають компромісу між точністю та додатковими витратами на зберігання, тоді як команда Google застосувала дві інновації: PolarQuant (квантоване перетворення у полярних координатах) та QJL (квантоване перетворення JL), що дозволяє стиснути KV Cache до 3-бітної точності без втрат.

Деякі експерти порівнюють цей прорив із вигаданою компанією Pied Piper із класичного серіалу HBO “Силіконова долина”, яка завдяки “беззбитковому алгоритму стиснення” революціонізувала галузь. Генеральний директор Cloudflare назвав це “моментом DeepSeek” від Google, вважаючи, що це може знизити витрати на запуск AI так само, як DeepSeek.

“Умовний рефлекс” — панічний продаж

Для довгострокових інвесторів, які живуть у світі ідеї “обчислювальна потужність — це влада”, ця новина стала чутливим сигналом.

Якщо продуктивність однієї відеокарти зросте вдвічі, чи не зменшиться різко попит на фізичне придбання DRAM і HBM (високошвидкісної пам’яті) у хмарних сервісів та компаній? Такий логічний висновок спричинив масові страхи та продажі.

Це не перша паніка щодо технологічних аспектів у секторі пам’яті. У 2025 році, коли DeepSeek випустила моделі з низькими витратами на тренування, ринок вже сумнівався у попиті на обчислювальне обладнання. TurboQuant розглядається як продовження цієї логіки. “Замість апаратного — софт”, — стає реальністю.

Однак, у світі технологій та на вторинному ринку інвестори зберігають холодний розум.

Морган Стенлі у своєму останньому звіті зазначила, що ринок неправильно зрозумів цю технологію. Вона впливає лише на кеш-пам’ять ключ-значення під час роботи inference, не торкається високошвидкісної пам’яті HBM, яка використовується для тренування моделей, і не стосується тренувального процесу.

Аналітики підкреслюють, що “6-кратне стиснення” — це не зменшення загального попиту на пам’ять, а підвищення ефективності, що дозволяє одному GPU обробляти більше даних. Це означає, що за однакових апаратних умов можна підтримувати в 4-8 разів довший контекст або збільшувати обсяг пакетної обробки без ризику переповнення пам’яті.

Аналітик Lynx Equity Strategies додав, що у ЗМІ часто перебільшують значення цієї новини. Зараз у більшості моделей уже широко застосовують 4-бітне кількісне квантування, і “8-кратне підвищення продуктивності” від Google базується на порівнянні з застарілими 32-бітними моделями.

Крім того, поточна перевірка TurboQuant обмежена. Головний дослідник Fast & Slow Thinking Institute, запрошений коментатор Тян Фенг, повідомив, що ця технологія наразі протестована лише на відкритих моделях Gemma, Mistral, а адаптація до ключових моделей Google, таких як Gemini, ще не оприлюднена. Технологічна універсальність ще під питанням.

Варто зазначити, що стиснення KV Cache і оптимізація довгого контексту — не нові ідеї. Ще у квітні 2025 року Google опублікувала відповідну статтю про TurboQuant.

Внутрішньосекторні розробки

У країні також є свої проєкти у цій сфері. Наприклад, KimiLinear, що зменшує використання KV Cache до 75% при роботі з довгими контекстами, або MLA, запропонований DeepSeek V2, що також оптимізує KV Cache.

Парадокс Джевонса: чим ефективніше — тим більший попит?

Крім можливих неправильних тлумачень технічних деталей, слід переоцінити довгостроковий вплив TurboQuant з економічної точки зору.

З точки зору ланцюга постачань, короткостроково всі виробники працюють на повну потужність. Попит на серверну пам’ять зростає: у 2026 році очікується зростання потреб у DRAM на 39%, у HBM — на 58%. Оптимізація TurboQuant, ймовірно, буде поглинута зростанням галузі.

“Це ще один приклад парадоксу Джевонса”, — сказав голова компанії “Безмежні зірки” Фан Хайшень. — “Підвищення ефективності технологій зазвичай знижує вартість використання, але стимулює ще більший попит. Ефективність парової машини не зменшила споживання вугілля, навпаки — сприяла його зростанню. Це закономірність і в епоху AI”.

Хоча TurboQuant безпосередньо впливає на криву витрат пам’яті AI-систем, історія показує, що алгоритми стиснення не змінюють загальний масштаб закупівель апаратного забезпечення. Знижуючи вартість кожного запиту, ці технології дозволяють запускати моделі локально, а не лише у дорогих хмарах, що знижує бар’єри для масштабування AI і відкриває нові сфери застосування.

“Зміщення фокусу з GPU на оптимізацію зберігання знизить TCO (загальні витрати володіння). Це дозволить малим і середнім компаніям активніше брати участь у AI-інноваціях, подолати технологічні бар’єри великих гравців і прискорити демократизацію AI”, — зазначив Тян Фенг.

Оскільки стаття ще не опублікована офіційно, її вплив викликає сильну турбулентність у секторі пам’ятевих чипів, що свідчить про вразливість і чутливість інвестицій у AI-інфраструктуру.

На момент публікації Google ще не оголосила точних дат впровадження TurboQuant у власних моделях, таких як Gemini. Обговорення цієї технології продовжиться на конференції ICLR 2026 у квітні. Наші журналісти й надалі стежитимуть за розвитком подій.

(Джерело: Shanghai Securities News)

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити