Чи означає нова технологія TurboQuant від Google кінець для Micron?

Трохи більше року тому китайський кількісний хедж-фонд, що перетворився на лабораторію ШІ, випустив просунуту модель ШІ під назвою DeepSeek. Хоч існують дискусії щодо того, наскільки дешево та на яких чипах навчали DeepSeek, сумніву немає: DeepSeek впровадив новаторські інновації, які значно підвищили ефективність навчання моделі ШІ за умов меншої кількості й «менш якісних» напівпровідників.

Акції компаній у сфері напівпровідників та пам’яті різко впали на новинах — виходячи з поверхневого враження, що компаніям ШІ не знадобиться купувати стільки логічних і чипів пам’яті. Однак усім нам тепер відомо, що ці акції згодом відскочили — і навіть більше, — адже підвищення ефективності моделей не завадило попиту на чипи. Натомість компанії ШІ використали виграші в ефективності, щоб інвестувати в ще більш просунуті моделі, що збільшило загальний попит на обчислювальні потужності та пам’ять.

Минулого тижня Alphabet (GOOG +5.02%) (GOOGL +5.10%) Google Research випустила TurboQuant — програмну технологію стиснення пам’яті для ШІ, яка забезпечує набагато ефективніший інференс за меншого обсягу пам’яті. У відповідь великі компанії з пам’яті, такі як Micron (MU +4.80%) та її постачальники, різко злетіли вниз.

Проте, чи це просто ще один момент DeepSeek, який інвесторам варто викупити?

Розгорнути

NASDAQ: MU

Micron Technology

Зміна сьогодні

(4.80%) $15.46

Поточна ціна

$337.26

Ключові показники

Капіталізація ринку

$381B

Діапазон за день

$311.50 - $337.70

Діапазон за 52 тижні

$61.54 - $471.34

Обсяг

3.1M

Ср. обсяг

40M

Валовий прибуток

58.54%

Дохідність дивідендів

0.18%

Що таке TurboQuant?

TurboQuant суттєво збільшує ємність і прискорює ключ-значення кеш (KV cache) в інференсі ШІ. KV-кеш — це тип пам’яті, який дозволяє алгоритму ШІ зберігати попередній контекст без повторного обчислення всіх попередніх токенів для генерації нових. Отже, KV-кеш — це свого роду «історія» попереднього виводу ШІ.

Але якщо KV-кеш — це «історія» минулого контексту, TurboQuant — швидке, але точне «підсумовування» цієї історії.

Якщо пояснити простими словами, TurboQuant працює ось так. Модель ШІ розуміє контекст, зберігаючи дані як вектори, або багатовимірні діаграми з кількома «вкладеннями» (embeddings), тобто точками в системі координат X-Y-Z. Токен із вектором, подібним до іншого, означає, що він має подібні відносини.

Для простоти припустимо площину X-Y. Тож одне вкладення може бути описане напрямком «йди на три клітинки на схід і на чотири на північ».

TurboQuant спрощує ці команди, кажучи: «йди на п’ять клітинок під кутом 37 градусів на північний схід». Це значно зменшує обчислення, необхідні для розуміння контексту, хоча й може призводити до залишкових помилок. Але потім TurboQuant накладає механізм корекції помилок на 1 біт, який це виправляє. Навіть із додатковим бітом ця техніка використовує набагато менше пам’яті, ніж стандартний метод координат XYZ для векторів ШІ.

У результаті корекції помилок Google Research стверджує, що TurboQuant може збільшити ємність KV-кешу у шість разів, а також зробити інференс ШІ у вісім разів швидшим — усе це без втрати точності.

TurboQuant прискорює інференс ШІ. Джерело зображення: Getty Images.

Як TurboQuant вплине на пам’ять ШІ

Якщо інференс ШІ може використовувати в шість разів менше DRAM і працювати у вісім разів швидше, логіка така, що в майбутніх сценаріях інференсу може бути менший попит на пам’ять.

Це виглядає трохи спрощено, хоча існує правдоподібний сценарій мінусів. Один із ризиків полягає в тому, що частка ринку інференсу може зміститися від дорогих GPU з високою пропускною здатністю пам’яті (HBM) до CPU, які працюють на «традиційній» серверній пам’яті на кшталт DDR5 або MRDIMM.

HBM значно швидша за ці старіші типи пам’яті, але вона може зберігати менший обсяг контексту й у багато разів дорожча. Через восьмикратне зростання швидкості KV-кешу, компанія, яка тепер захоче використовувати багато AI-агентів, що роблять інференс на великому обсязі даних, наприклад, 1,000-сторінковому юридичному документі, може, ймовірно, ефективніше розгортати DDR5 або MR-DIMM. Хоча HBM також буде суттєво «підсилина» TurboQuant, старіші форми пам’яті, які використовують CPU, можуть бути «достатньо швидкими» для великих підприємств, які прагнуть знизити витрати.

HBM була одним із головних факторів дефіциту пам’яті, який спостерігається сьогодні: для виробництва біта HBM потрібно у три-чотири рази більше обладнання, ніж для «традиційної» пам’яті. Тому можливо, що якщо попит зміститься на більш традиційну пам’ять для інференсу, ринок пам’яті буде менш обмеженим за постачаннями.

Але більш імовірна «бичача» історія

Хоч TurboQuant створює потенційний ризик для ринку HBM, який поглинає більшу частину постачання галузі, цей інвестор все ж вважає, що більш імовірним є оптимістичний сценарій.

По-перше, HBM також отримає покращення від TurboQuant — завдяки цьому інференс на базі HBM матиме ширші вікна контексту. Тож інференс не переміститься повністю на CPU або традиційну пам’ять. Для застосувань, які потребують надшвидкої затримки, HBM і надалі, ймовірно, використовуватиметься певною мірою.

Крім того, HBM досі є основним типом пам’яті для навчання моделей ШІ, і TurboQuant на це не впливає. Хоч інференс у майбутньому буде більшим ринком, попит на HBM для навчання, імовірно, все одно продовжуватиме зростати. З огляду на те, що наразі в HBM ми дуже недопоставлені, і на те, що TurboQuant ще навіть не впровадили поза лабораторією Google, компанії з пам’яті матимуть час скоригувати зростання своїх постачань.

Але корекція постачань може бути навіть не потрібною, оскільки парадокс Джевонса може спрацювати для TurboQuant так само, як він спрацював для DeepSeek. Парадокс Джевонса стверджує, що коли процес стає ефективнішим, а не просто використовує менше своїх «вхідних» ресурсів, попит на ці ресурси фактично зростає: підвищена ефективність розблоковує впровадження та більше сценаріїв використання.

Оскільки більшість провідних технологічних компаній вважають, що ми все ще на початку ери ШІ, якщо TurboQuant прискорить темпи, з якими підприємства та споживачі вбудовують ШІ у свої бізнеси, то зростаюча хвиля попиту повинна підняти всі судна.

Підсумовуючи, цей спад продажів пам’яті може стати можливістю. Хоч Micron і пов’язані з нею акції капітального обладнання для напівпровідників усе ще значно вищі за минулий рік, цей «ляк» може бути шансом додати або купити початкову частку, якщо ви не встигли під час зростання протягом минулого року.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити