Від падіння Elpida до підйому Micron: перебудова базової логіки пам’ятевих чипів

2012 рік — світовий провідний виробник DRAM-пам’яті,尔必达, офіційно оголосив про банкрутство.

Як колись еталонна компанія японської напівпровідникової індустрії,尔必达 об’єднала ключові технології трьох гігантів NEC, Hitachi, Mitsubishi, навіть за підтримки японського уряду та інвестицій, їй не вдалося врятувати ситуацію. Після подання заяви про банкрутство з боргом у 4300 мільярдів ієн, компанія була захищена від банкрутства, але в підсумку її викупила американська компанія Micron Technology за 2000 мільярдів ієн. Після інтеграції та поглинання вона повністю вийшла з ринку.

Оглядаючи історію розвитку галузі, Intel, Texas Instruments, Motorola також намагалися зайти на ринок DRAM, але згодом покинули його. Вся японська напівпровідникова пам’ятна індустрія, від піку до краху, пройшла менше ніж за двадцять років. Після цього корейські компанії взяли на себе лідерство: Samsung, SK Hynix, за підтримки уряду, застосовуючи агресивні цінові війни, захопили світовий ринок, витіснивши всіх конкурентів.

Мірою виживання став Micron, який наразі є єдиним у США підприємством із здатністю масового виробництва сучасних високошвидкісних пам’ятних чіпів. Штаб-квартира компанії розташована у місті Бойсі, Айдахо. Вона довго працювала у тіні таких гігантів, як Nvidia та TSMC, не займаючись дизайном GPU або логічних чіпів, зосереджуючись виключно на розробці та виробництві пам’яті та флеш-пам’яті.

Проте зростання попиту на AI обчислювальні потужності викликало бурхливий сплеск, і фізичний «бутлєк» — обмеження, яке існувало десятиліттями — став все більш очевидним: час передачі даних від пам’яті до обчислювального блоку вже перевищує час самих обчислень. Це головна проблема галузі, яка не може бути вирішена програмними методами, — потрібні технологічні прориви у апаратному забезпеченні, і саме цим займається Micron вже понад 40 років.

Головна проблема у AI: пам’ять як вузьке місце

За архітектурою фон Ноймана, GPU та TPU обчислювальні блоки та основна пам’ять фізично розділені. Внутрішньо обчислювальні ядра мають невеликі кеші SRAM, а великі моделі та вхідні дані зберігаються поза межами — у DRAM. Для передачі даних між цими зонами використовується проміжний рівень у вигляді сигналів.

Наприклад, модель з 700 мільярдами параметрів у форматі FP16 потребує близько 140 ГБ фізичної пам’яті для зберігання ваг. Сучасні високопродуктивні AI-карти мають відеопам’ять об’ємом від 80 до 192 ГБ, тому великі моделі потрібно розбивати на кілька карт для спільної роботи. За останнє десятиліття обчислювальна потужність чипів зросла експоненційно, але пропускна здатність пам’яті залишається обмеженою через фізичні характеристики: кількість контактів, частоту сигналів, теплові обмеження. Це спричиняє відставання у швидкості обробки даних, і коли обчислювальні ресурси перевищують можливості пам’яті, ядра змушені просто чекати, що знижує ефективність.

AI має два ключові сценарії: тренування та inference (виведення). Вони суттєво відрізняються за логікою. Тренування — це масове паралельне оброблення, коли одна й та сама інформація багаторазово використовується у кешах ядра, що підвищує арифметичну інтенсивність. Тут головне — швидкість обчислень, а не пропускна здатність пам’яті, тому це класичний сценарій високої обчислювальної щільності, де Nvidia демонструє переваги.

Для inference — логіка зовсім інша. Високі мовні моделі генерують текст по одному токену, використовуючи автогресивний механізм. Щоб уникнути повторних обчислень для історичних увагових балів, система створює кеш KV у відеопам’яті. Наприклад, при довжині контексту близько 4096 символів, один запит може займати близько 1.34 ГБ пам’яті. З двома картами A100, після зняття ваг, залишається лише 20 ГБ для KV кешу, що дозволяє обробляти максимум 14 одночасних запитів. В обчислювальному процесі ця частина дуже низька, і швидкість обмежена пропускною здатністю пам’яті — це задачі, що вимагають високої пропускної здатності пам’яті (visiting memory).

З точки зору енергоспоживання, зчитування 1 біт з DRAM поза межами чипа коштує приблизно 10–20 пJ, тоді як одне FP16 обчислення — всього 0.1 пJ. Це означає, що переміщення даних споживає у 100–200 разів більше енергії, ніж самі обчислення. У масштабних сценаріях inference, якщо не оптимізувати режим доступу до пам’яті, значна частина енергії витрачається на передачу даних по шині, а не на логічні обчислення. Це і є головним драйвером для інвестицій Micron у технології HBM.

Фундаментальні особливості Micron та AI-ланцюг

Micron — типовий IDM-виробник, що самостійно розробляє та виробляє компоненти: дизайн чіпів, виготовлення на кремнієвих фабриках, пакування та тестування. Фабрики зосереджені на пам’яті — DRAM і NAND, без участі у виробництві CPU або GPU.

За структурою доходів, понад 70% — від DRAM, 20–30% — від NAND, решта — NOR-пам’ять. DRAM — основа для оперативної пам’яті, NAND — для SSD, NOR — для автомобільної та промислової електроніки, виконує функцію швидкого запуску системи. Це нішеві, але незамінні сегменти.

У бізнес-стратегії Micron виділяє чотири напрямки: дата-центри та сервери, мобільні пристрої, корпоративне зберігання (SSD), автомобільна та промислова автоматизація.

У AI-ланцюзі Nvidia відповідає за дизайн GPU, TSMC — за виготовлення. Micron не бере участі у цих етапах, але є ключовим постачальником компонентів для AI-ускорювачів. Оскільки одних лише логічних чіпів GPU недостатньо для роботи великих моделей, головним вузьким місцем є пропускна здатність пам’яті. Тому Nvidia тісно інтегрує HBM високої пропускної здатності з GPU. Micron разом із SK Hynix і Samsung є основними постачальниками HBM, їхні продукти використовують передові технології упаковки CoWoS від TSMC і формують цілісні AI-модулі. GPU — це «мозок» AI-обчислень, а HBM — швидкий канал передачі даних, без яких система не працює.

У конкурентній боротьбі Nvidia будує свою перевагу на архітектурі та екосистемі, а Micron — на технологіях процесу та багатошаровій упаковці, що створює бар’єри входу. Щоб підвищити пропускну здатність, кожне нове покоління HBM використовує більш точні технології TSV і збільшує кількість шарів, що вимагає високої кваліфікації.

DRAM: базова інфраструктура AI-обчислень

У традиційних комп’ютерах DRAM — основна пам’ять, яка ідеально підходить для великих обсягів даних із низькою швидкістю та високою ємністю, тоді як CPU — для швидких обчислень із невеликим кешем. Під час роботи системи дані зчитуються з диска у DRAM, а CPU виконує операції з затримкою у кілька наносекунд і високою пропускною здатністю. Внутрішні процеси та ОС постійно працюють у цій пам’яті. DRAM має властивість втрати даних при відключенні живлення через природний витік заряду з конденсаторів, тому потребує постійного оновлення.

У епоху AI застосування DRAM кардинально змінюється. Обчислювальні ядра переходять з CPU на GPU, і DRAM вже не обов’язково має вигляд DDR-пам’яті на материнській платі. Замість цього використовують HBM — високошвидкісну пам’ять, яка вертикально укладається за допомогою TSV-технологій і інтегрується безпосередньо з GPU.

Зараз головна цінність DRAM у AI — це дві речі: перше — завантаження ваг великих моделей (700 мільярдів параметрів у FP16 — 140 ГБ пам’яті, щоб запустити inference, потрібно повністю завантажити модель у HBM); друге — динамічне кешування KV (ключ-значення) для генерації тексту, де зростання довжини контексту збільшує споживання пам’яті. Навчальні сценарії ще більш вимогливі: потрібно зберігати не лише ваги, а й проміжні результати, додаткові дані оптимізаторів — усього в кілька разів більше, ніж для inference.

Через обмеження «пам’ятної стіни» швидкість GPU не зростає так швидко, як пропускна здатність пам’яті. В результаті GPU часто просто «зависають», очікуючи даних, і пропускна здатність HBM визначає максимальну продуктивність AI-серверів. Це і є головною мотивацією для Micron інвестувати у розвиток HBM.

Три гіганти ринку пам’яті: Samsung, SK Hynix, Micron — унікальні відмінності


Світовий ринок DRAM контролюють три компанії: Samsung, SK Hynix і Micron, разом вони мають близько 95% ринкової частки. Кожна з них має свої сильні сторони.

У технологіях процесу Micron лідирує: від 1-alpha, 1-beta до 1-gamma, постійно першим вводить у масове виробництво нові високоплотні DRAM-чіпи, що дозволяє отримувати більше чіпів із одного кремнієвого пласту і знижувати собівартість за біт. Samsung на 14 нм і нижче має проблеми з якістю, темпи оновлення сповільнилися; SK Hynix йдуть у тому ж напрямку.

Щодо HBM — ситуація інша. SK Hynix — лідер, має понад 50% ринку, є ексклюзивним постачальником для високорівневих GPU Nvidia, застосовує технологію MR-MUF для багатошарової упаковки з кращим тепловідведенням і контролем якості. Micron, що увійшов у цю нішу пізніше, пропускає HBM3 і одразу працює над HBM3E, використовуючи енергоефективні технології та TC-NCF упаковку, але її виробництво ще не таке масштабне і має меншу частку ринку. Samsung у HBM3 і HBM3E не пройшли тест Nvidia через проблеми з тепловиділенням і втратили можливість отримати частку ринку. Зараз вони орієнтуються на HBM4.

Щодо енергоефективності, Micron має перевагу: при однаковій пропускній здатності споживає на 20–30% менше енергії, що особливо важливо для масштабних дата-центрів. Також у них є LPDDR5X з швидкістю 9.6 Гбіт/с і зниженням споживання на 30%, що підходить для мобільних AI-моделей.

За обсягами виробництва Samsung — лідер, але ціна на їхню продукцію залежить від ринкових коливань. Micron у меншій мірі залежить від цінових коливань, орієнтуючись на технологічну перевагу та якість.

Крім DRAM і HBM, у компанії є NAND і NOR — друга лінія зростання. NAND займає 10–15% світового ринку, NOR — для автомобільної та промислової електроніки, з високими стандартами безпеки та довгим терміном постачання.

Оцінка та порівняння компаній

Зараз акції Micron коштують близько 600 доларів, з коефіцієнтом P/E 21.44 і ринковою капіталізацією близько 650 мільярдів доларів. Аналітики дають цільову ціну від 400 до 675 доларів, середня — близько 500 доларів, що свідчить про недооцінку.

Раніше індустрія пам’яті була циклічною: високий попит — розширення виробництва — перенасичення — падіння цін. Зазвичай мультиплікатор P/E становив 8–10. Зараз Micron оцінюють вище через нову модель доходів від HBM: у порівнянні з традиційною DDR, яка залежить від ринкових коливань, HBM укладає довгострокові контракти з ключовими клієнтами, наприклад Nvidia, і вже до 2026 року весь обсяг HBM буде проданий. Це переводить доходи з циклічних у стабільні, контрактні, що підвищує оцінку компанії.

Завдяки державній підтримці та політиці, Micron — єдина у США компанія з передовими технологіями зберігання, яка отримує вигоду від закону про мікросхеми та локалізації ланцюжка постачань. Це додає додаткову ліквідність і стабільність.

Порівняння з конкурентами: SK Hynix має P/E близько 12.17, але через низьку дивідендну політику та обмежену здатність оновлювати виробництво через зовнішні обмеження, її оцінка стримується. Samsung — P/E понад 34, але це зумовлено зниженням чистого прибутку через високі витрати на інновації та низьку рентабельність у деяких сегментах.

Загалом, інвестори бачать у Micron перспективу зростання за рахунок збільшення частки HBM, довгострокових контрактів і технологічних переваг, але ризики залишаються — циклічність ринку, технологічні обмеження та конкуренція.

Ключові стандарти HBM та майбутні технології CXL

Всі виробники HBM змагаються за якість, і головними параметрами є:

  1. Швидкість контакту (інтерфейс), що визначає пропускну здатність. HBM використовує тисячі мікроскопічних виступів (TSV) для з’єднання з GPU. Стандартна кількість контактів — 1024, і швидкість визначає обсяг даних за секунду. Micron HBM3E має номінальну швидкість 9.2 Гбіт/с, що дає приблизно 1.2 ТБ/с на стек — краще за конкурентів (8–8.5 Гбіт/с). Однак підвищення швидкості збільшує енергоспоживання і ризик сигналних збоїв через теплові ефекти.

  2. Енергоефективність — у пJ/біт. Чим нижче — тим краще. Оскільки HBM працює у тісній інтеграції з GPU, зменшення споживання важливе для зниження тепловиділення та підвищення продуктивності.

  3. Тепловідвід і технологія упаковки. Висока щільність і багатошаровість ускладнюють відведення тепла. Micron і Samsung використовують TC-NCF — технологію, що має більший тепловий опір, тоді як SK Hynix застосовує MR-MUF — більш ефективну, з меншим тепловим опором і без повітряних бульбашок.

Загалом, для оцінки HBM важливо враховувати швидкість, енергоефективність і теплові характеристики. Вибір залежить від конкретних застосувань і цінових пріоритетів.

CXL — майбутнє пам’яті для AI-кластерів

HBM вирішує вузьке місце внутрішнього пропуску GPU, але при масштабуванні до тисяч GPU виникає проблема розподілу пам’яті та кешування між пристроями. Тут на допомогу приходить стандарт CXL.

Традиційно пам’ять у дата-центрах прив’язана до одного сервера, і її не можна ділити між кількома вузлами. Це призводить до «застою» KV-кешів і неефективного використання ресурсів. Крім того, синхронізація кешів між CPU і GPU — складна і повільна.

Проблема у тому, що PCIe — це протокол для переміщення великих обсягів даних без підтримки кеш-коherентності. CXL — це новий протокол, що базується на PCIe, але з підтримкою кеш-коherентності і автоматичним оновленням станів кешу. Це дозволяє синхронізувати дані за кілька наносекунд без участі програмного забезпечення.

CXL дозволяє створювати спільні пулі пам’яті, які можна динамічно розподіляти між вузлами, що значно підвищує ефективність і знижує витрати. Micron вже випустила модулі CXL Type 3 на базі DDR5, що поєднуються з HBM для різних сценаріїв: HBM — для високошвидкісних локальних задач, CXL — для масштабованого зберігання даних у кластері.

У майбутньому CXL може стати ключовим компонентом для побудови великих AI-інфраструктур, забезпечуючи гнучкість і масштабованість систем.

Глибина технологічних викликів і майбутні прориви

Вартість сучасних напівпровідникових фабрик досягає 150–200 мільярдів доларів, а один EUV-літографічний апарат коштує понад 2 мільярди доларів. Це означає, що для окупності потрібно працювати з максимальною завантаженістю понад 95%. При зниженні попиту виробники змушені знижувати ціни або знижувати обсяги, що спричиняє циклічність ринку.

Ще одна проблема — фізичні обмеження у виробництві HBM. Багатошарові модулі мають низький рівень виходу — через дефекти на кожному шарі. Навіть за високої якості виробництва, рівень виходу для 8-ми шарів HBM3E — близько 61%, а для 12-ми шарів HBM4 — менше 50%. Це підвищує ціну і обмежує масштабованість.

Технології PIM (Processing In Memory) — ідея інтегрувати обчислювальні блоки безпосередньо у пам’ять — вже понад 20 років, але поки що не знайшли широкого застосування через конфлікт технологічних вимог: DRAM потребує високого опору витоку і високого порогу напруги для збереження заряду, тоді як логічні чіпи — навпаки, низький поріг і високі швидкості. Вбудовувати обчислювальні модулі у DRAM — означає втрату продуктивності і підвищення тепловиділення.

Зараз основний шлях — це інтеграція легких AI-обчислювальних ядер у базовий шар HBM, виготовлений за передовими технологіями TSMC, що дозволяє уникнути технологічних обмежень DRAM, але ще не дає повної інтеграції пам’ять-обчислення.

Майбутнє — це зростання ролі процесів, системної інтеграції і нових матеріалів, таких як фотоніка і 2D-матеріали, що допоможуть подолати фізичні обмеження і створити нові архітектури для AI та високопродуктивних обчислень.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити