У змаганнях штучного інтелекту з параметрами великих моделей, що перевищують трильйони, GPU-обчислювальна потужність безумовно є фокусом уваги, але більш прихований, проте визначальний обмежувач — компонент, що стає головною точкою боротьби у галузі — високошвидкісна пам’ять з високою пропускною здатністю (High Bandwidth Memory, HBM). Якщо порівнювати GPU з надвисокопродуктивним двигуном із тисячами циліндрів, то HBM — це система пального, що постійно забезпечує його даними. Якщо подача палива не встигає, навіть найпотужніший двигун просто працює порожньо.

У галузі загальновизнано, що вузьке місце обчислювальної потужності AI вже не обмежується самим обчислювальним блоком, а значною мірою залежить від ефективності перенесення даних. За даними, у традиційних обчислювальних архітектурах енергоспоживання при перенесенні даних часто становить 60-80% від загального споживання системи. У сценаріях інференсу рівень простою GPU може досягати 99%. За цим стоїть ключовий обмежувач — пропускна здатність пам’яті.

HBM завдяки технологіям 3D-стекування та через silicon via (TSV) забезпечує у рази вищу пропускну здатність та енергоефективність у порівнянні з традиційною пам’яттю, і вже стала стандартом для AI-ускорювачів таких гігантів, як NVIDIA, AMD, Google.

Технічний принцип: як HBM перебудовує канали даних між GPU та пам’яттю

Від “плоскої швидкої машини” до “вертикального ліфта”

HBM — це не новий тип пам’яті, а набір стандартів інтерфейсу та пакувальних технологій, що визначають, як DRAM з високою пропускною здатністю з’єднується з обчислювальним пристроєм. Основні технологічні напрямки можна розбити на три рівні:

3D-стекування — вертикальне укладання кількох шарів DRAM-чипів (зараз переважає 8-12 шарів, HBM4 вже просунулась до 16), що у рази підвищує щільність зберігання та кількість паралельних каналів на ту ж площу.

Silicon via (TSV) — у кожному шарі DRAM-мікросхеми роблять мікропори діаметром 5-10 мікрометрів, заповнюють їх провідним матеріалом, створюючи вертикальні з’єднання між шарами. Це різко зменшує довжину сигналу порівняно з традиційною друкованою платою (PCB), де лінії можуть бути сантиметрами або метрами. TSV зменшує відстань передачі сигналу до мікрометрів, що знижує затримки та зменшує деградацію сигналу.

Силікова проміжна плита (Interposer) — стек HBM з’єднується з GPU або CPU через мікроперемички, а сама плита — з чіпом через короткий шлях. Весь модуль збирається за допомогою передових технологій пакування, таких як CoWoS, що дозволяє інтегрувати багато компонентів у компактний блок.

Ключова перевага цієї архітектури — ширина шин. Одна HBM-стек має зазвичай 1024 біти, а HBM3E — до 2048 біт. Наприклад, у новому HBM3E від SK hynix один модуль має 24 ГБ і пропускну здатність понад 1 ТБ/с. Для порівняння, традиційна GDDR з 32-бітною або 384-бітною шиною має значно меншу пропускну здатність.

Концепція HBM — “широка і повільна” — багато паралельних каналів працюють на низьких частотах, що забезпечує високу енергоефективність. GDDR ж — “вузька і швидка” — використовує менше каналів, але працює на високих частотах, щоб досягти потрібної пропускної здатності. Обидві архітектури орієнтовані на різні сценарії: HBM — на максимальну пропускну здатність, GDDR — на баланс між продуктивністю і вартістю.

HBM vs GDDR6: “широка і повільна” проти “вузька і швидка”

Обидві — DRAM-типи, що забезпечують доступ до даних для GPU, але мають різні цілі, характеристики та цінову структуру.

Пропускна здатність: HBM3E — до 1.2 ТБ/с за стек, а новий HBM4 — понад 2 ТБ/с. У той час як GDDR6X — близько 1 ТБ/с на карту, що вже наближається до фізичного максимуму. За енергоефективністю на одиницю пропускної здатності HBM значно переважає GDDR, що важливо для великих дата-центрів AI.

Споживання та затримки: через короткі TSV-канали HBM споживає на 30% менше енергії, ніж GDDR5. Затримки у GDDR зумовлені довжиною PCB і відстанню до GPU — мікросекунди, тоді як у HBM — наносекунди. У сценаріях високої пропускної здатності, таких як тренування і inference великих моделей, важливіше саме пропускна здатність, ніж малі затримки.

Вартість: HBM — дорожча. За даними галузі, вартість 1 ГБ HBM перевищує 25 доларів, тоді як GDDR6 — близько 5-8 доларів. У високих моделях з великими параметрами HBM може становити 60-80% вартості GPU. У сценаріях з меншими вимогами до пропускної здатності GDDR6 має кращий співвідношення ціна/продуктивність.

Отже, вибір між HBM і GDDR — це баланс між максимальною пропускною здатністю та вартістю. HBM потрібен там, де потрібно досягти певного порогу пропускної здатності для роботи великих моделей — наприклад, для інференсу з трильйонами параметрів. GDDR — для менш вимогливих сценаріїв, де важливий баланс ціна-продуктивність.

Обидві технології не є взаємовиключними, а доповнюють одна одну залежно від рівня задачі. Але у великих моделях і тренуванні AI переваги HBM стають очевидними, витісняючи GDDR з ключових позицій.

“Меморіальна стіна”: чому зростання розмірів моделей збільшує потребу у HBM у геометричній прогресії

Щоб зрозуміти, чому попит на HBM стрімко зростає, потрібно повернутися до основного обмежувача — “меморіальної стіни” (Memory Wall) у AI.

Різниця у швидкості зростання обчислювальної потужності і пропускної здатності пам’яті

За останні 30 років швидкість зростання обчислювальної потужності процесорів слідує закону Мура — подвоєння кожні 18-24 місяці. А пропускна здатність пам’яті зростає набагато повільніше. За дослідженнями, у AI модельний обчислювальний потенціал зростає приблизно у 3 рази кожні два роки, тоді як пропускна здатність пам’яті — лише у 1.6 рази. Це означає, що кожне нове підвищення обчислювальної потужності “знецінюється” через недостатню пропускну здатність.

У сценарії інференсу ця проблема особливо гостра. Тренування — це високопродуктивні матричні операції (GEMM), що мають високий коефіцієнт арифметичної інтенсивності (більше 100 FLOPs/байт). А інференс — переважно матричні векторні операції (GEMV) з низькою арифметичною інтенсивністю (менше 2 FLOPs/байт). Чим нижча арифметична інтенсивність, тим більше обмежує пропускна здатність пам’яті, а не обчислювальні ресурси — це і є “меморіальна стіна”.

Обробка великих моделей: “переносний тягар”

При інференсі великих моделей кожен новий ток вимагає завантаження всіх параметрів моделі з пам’яті. Наприклад, модель Llama 3 70B — це близько 140 ГБ ваг. Щоб генерувати 30 токів за секунду, потрібно забезпечити пропускну здатність пам’яті близько 4.2 ТБ/с. Це вже майже межа сучасних систем. NVIDIA H100 SXM5 має пропускну здатність HBM близько 3.35 ТБ/с, що є “на межі”. З розміром параметрів у сотні мільярдів і більше, потреба у пропускній здатності зростає лінійно або навіть суперлінійно.

Два обмежувачі: об’єм пам’яті і пропускна здатність

Якщо об’єм пам’яті не достатній для зберігання всіх параметрів, потрібно розподіляти модель між кількома GPU — так званий тензорний паралелізм. Це викликає додаткові затрати на комунікацію між GPU, що може знизити ефективність.

Отже, цінність HBM — у двох аспектах: пропускна здатність визначає швидкість генерації слів і затримки, а об’єм — чи може модель поміститися на один GPU, скільки потрібно GPU і які витрати на міжграфову комунікацію.

Зараз тенденція очевидна: HBM стає стандартом для AI-обчислень. За даними TrendForce, у 2025 році попит на HBM зросте більш ніж на 130%, а у 2026 — ще на понад 70%. Від периферійної пам’яті для графіки до основного компонента AI-інфраструктури.

Весь ланцюг: від технічного вибору до ринкових дисбалансів

Розмір ринку

Ринок HBM швидко зростає — за даними SEMI, до 2026 року він досягне 546 мільйонів доларів, що становить майже 40% від усього ринку DRAM. За прогнозами, у 2025 році потенційний ринковий обсяг (TAM) HBM сягне 350 мільйонів доларів і зросте до 1000 мільйонів до 2028 року, перевищуючи весь ринок DRAM 2024 року.

Обмеження у виробництві

Попит стрімко зростає, але виробничі потужності — обмежені. Хоча Samsung, SK hynix і Micron вже переорієнтували 70% виробничих ліній на HBM, загальний дефіцит залишається 50-60%. Виробництво HBM — складний процес, що вимагає передових технологій: тонких технологічних процесів (зараз 1β нм), TSV, мікроперемичок, рівень пакування на рівні рівня чіпа. Технологія CoWoS у TSMC дозволяє збільшити потужності, але попит все одно перевищує пропозицію.

Ціноутворення і ризики

Ціни на HBM зростають: у 2025 році — на 5-10%. Зі зростанням виробництва, зменшується пропозиція для споживчого сегмента DDR, що може спричинити подальше зростання цін. Вже у 2026 році SK hynix, Samsung і Micron почали масове виробництво HBM4. Навіть за збільшення потужностей, дефіцит залишається — близько 50%. Це означає, що баланс попиту і пропозиції ще довго залишатиметься напруженим.

Висновки

Від фундаментальних інновацій у технічних принципах до критичної залежності AI від пропускної здатності пам’яті і до дисбалансів у всьому ланцюгу виробництва — HBM перетворилася з технічної гілки у ключовий елемент конкуренції у сфері AI-інфраструктури.

Її незамінність у тренуванні і інференсі великих моделей базується на фундаментальній логіці: коли розмір параметрів перевищує певний поріг, пропускна здатність стає не “оптимізацією”, а “засобом для запуску” — нижче порогу система не працює ефективно. GDDR6 має переваги у ціні, але через вузькі канали і високі частоти архітектура не може забезпечити пропускну здатність, необхідну для трильйонних моделей. Ці структурні відмінності визначають, що у найважливішій гонці AI-обчислень HBM і GDDR — не конкуренти, а різні рівні рішення для різних потреб.

У майбутньому, з виходом HBM4 (пропускна здатність понад 2 ТБ/с на стек), розвитком 16-шарових стеків і нових пакувальних технологій, можливе подальше підвищення продуктивності. Водночас, компанії, такі як Huawei, досліджують альтернативи — зменшення залежності від HBM через алгоритмічні оптимізації, архітектури з пам’яттю на SRAM і об’єднані з обчисленнями. Чи зможе HBM зберегти лідерство у технічному розвитку і чи зможе його пропускна здатність задовольнити зростаючий попит — ключові питання для AI-індустрії найближчих років.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
GateIPOAccessSpaceX
5.29M Популярність
#
AnthropicReleasesFable5Model
642.76K Популярність
#
IsraelStrikesIranBTCPlunges
56.93K Популярність
#
MyGateTradeStory
10.32K Популярність
#
SpaceXIPOAttractsOver250BillionInOrders
1.39M Популярність

Закріплено

карта сайту

HBM проти GDDR: як високошвидкісна пам’ять може подолати «пам’ятний стіну» у тренуванні та виведенні штучного інтелекту

Технічний принцип: як HBM перебудовує канали даних між GPU та пам’яттю

HBM vs GDDR6: “широка і повільна” проти “вузька і швидка”

“Меморіальна стіна”: чому зростання розмірів моделей збільшує потребу у HBM у геометричній прогресії

Весь ланцюг: від технічного вибору до ринкових дисбалансів

Висновки

Популярні теми

GateIPOAccessSpaceX

AnthropicReleasesFable5Model

IsraelStrikesIranBTCPlunges

MyGateTradeStory

SpaceXIPOAttractsOver250BillionInOrders

Закріплено