В конкурсе искусственного интеллекта с параметрами, превышающими триллион, GPU-вычислительные мощности, безусловно, в центре внимания, но более скрытый, однако определяющий верхнюю границу компонента — это высокопроизводительная память (High Bandwidth Memory, HBM). Если сравнить GPU с сверхмощным двигателем с десятками тысяч цилиндров, то HBM — это топливная система, которая постоянно поставляет ему данные. Как только подача топлива отстает, даже самый мощный двигатель просто работает всухую.

Общепринятое понимание в индустрии — узкое место в AI-вычислениях уже не ограничивается самим вычислительным блоком, а в большей степени связано с эффективностью передачи данных. По данным, в традиционных архитектурах передачи данных потребление энергии на перенос данных зачастую составляет 60-80% общего энергопотребления системы. В сценариях вывода (инференса) использование GPU может достигать 99% неиспользуемых ресурсов. За этим стоит ключевой фактор ограничения — пропускная способность памяти.

HBM благодаря 3D-стеканию и технологии TSV (через-стековые соединения) обеспечивает в единичной площади значительно более высокую пропускную способность и энергоэффективность по сравнению с традиционной памятью, став стандартом для AI-ускорителей таких гигантов, как NVIDIA, AMD, Google.

Технический принцип: как HBM перестраивает каналы данных между GPU и памятью

От «плоской гоночной машины» к «вертикальному лифту»

HBM — не новая память, а набор стандартов интерфейсов и технологий упаковки, определяющих «как сделать DRAM с очень высокой пропускной способностью». Основные технологические направления можно разбить на три уровня:

3D-стекание — вертикальное укладывание нескольких слоев DRAM-чипов (в настоящее время — 8-12 слоев, HBM4 — уже 16), что в той же площади увеличивает плотность хранения и число параллельных каналов в разы.

Через-стековые соединения (TSV) — внутри каждого слоя DRAM-микрорезы диаметром всего 5-10 микрометров, заполненные проводящим материалом, создают вертикальные каналы, обеспечивающие межслойную связь на уровне тысяч соединений. В отличие от традиционных PCB, где длина проводников измеряется сантиметрами или метрами, TSV сокращают сигнальный путь до микрометров, значительно снижая затухание сигнала и задержки.

Силиконовый промежуточный слой (Interposer) — стек HBM соединяется с GPU/CPU через микровыступы, а промежуточный слой обеспечивает короткое межсоединение с чипом. Вся структура реализуется с помощью передовых технологий упаковки, таких как CoWoS (Chip on Wafer on Substrate), обеспечивающих высокую плотность интеграции.

Ключевое новшество этой архитектуры — ширина шины. Обычный стек HBM имеет шину шириной 1024 бита, а HBM3E — до 2048 бит. Например, у последней массовой продукции SK Hynix HBM3E объем памяти достигает 24 ГБ, а пропускная способность превышает 1 ТБ/с. В то время как традиционные GDDR-памяти имеют ширину шины всего 32 бита (один чип) или 384 бита (многоканальные сборки), разрыв по пропускной способности колоссальный.

Концепция HBM — «широкая и медленная» — за счет большого числа параллельных каналов достигает высокой пропускной способности при относительно низкой частоте каждого канала, что значительно повышает энергоэффективность. В противоположность этому, GDDR — «узкая и быстрая» — использует меньшую ширину шины, но работает на очень высокой частоте, чтобы «выжать» максимум из меньшего числа каналов. Эти подходы подходят для разных сценариев: HBM ориентирована на максимальную пропускную способность, GDDR — на баланс между производительностью и стоимостью.

HBM vs GDDR6: битва «широкая и медленная» против «узкая и быстрая»

HBM и GDDR6 — оба семейства DRAM, предназначенные для обеспечения GPU каналами данных, но их проектные цели, характеристики и структура стоимости существенно различаются.

Пропускная способность: HBM3E в одном стеке достигает 1,2 ТБ/с, а следующая версия HBM4 — более 2 ТБ/с. У GDDR6X максимальная пропускная способность карты — около 1 ТБ/с, что уже приближается к физическому пределу. Однако по энергоэффективности HBM значительно превосходит GDDR, что при масштабных развертываниях в дата-центрах дает прямое преимущество в операционных расходах.

Потребление энергии и задержки: благодаря коротким TSV путь внутри HBM очень короткий, что снижает энергопотребление примерно на 30% по сравнению с GDDR5. В задержках GDDR зависит от PCB и коммуникации с GPU, обычно — микросекунды; HBM размещается прямо рядом с GPU, задержка — наносекунды. В сценариях с высокой пропускной способностью, где важна параллельная обработка данных (например, обучение и инференс), задержки менее критичны, чем пропускная способность.

Стоимость: главный недостаток HBM — цена. Стоимость 1 ГБ HBM превышает 25 долларов, тогда как GDDR6 — около 5-8 долларов. В высококлассных GPU доля стоимости HBM может достигать 60-80%. При этом, по стоимости на единицу пропускной способности GDDR6 зачастую превосходит HBM — при сценариях, где не требуется экстремальный максимум пропускной способности, GDDR6 более выгодна.

Общий вывод: выбор между HBM и GDDR — баланс между пределами производительности и затратами. HBM подходит для сценариев, где необходимо обеспечить определенный порог пропускной способности — например, при инференсе моделей с триллионами параметров, где ниже этого порога система не сможет эффективно работать. GDDR — для случаев, когда важна минимизация стоимости при приемлемом уровне производительности, например, для моделей среднего размера (7-13 миллиардов параметров).

Это не конкуренция, а разные уровни решений. Но в AI-обучении и крупномасштабном инференсе преимущества HBM начинают вытеснять GDDR из ключевых позиций.

«Стена памяти»: почему с ростом модели требования к HBM растут экспоненциально

Понимание взрывного роста потребности в HBM связано с одним из главных ограничений AI-вычислений — «стеной памяти» (Memory Wall).

Разрыв в росте вычислительной мощности и пропускной способности

За последние 30 лет рост вычислительных мощностей процессоров следовал закону Мура — удваивался каждые 18-24 месяца; в то время как пропускная способность памяти росла гораздо медленнее. Исследования показывают, что за счет роста AI-моделей, вычислительная мощность увеличивается примерно в 3 раза каждые два года, а пропускная способность памяти — всего в 1.6 раза, а межсоединительные сети — еще медленнее. Это означает, что каждое увеличение вычислительной мощности «обесценивает» эффективность передачи данных.

Особенно остро эта проблема проявляется при инференсе. В обучении основное вычисление — матричные умножения (GEMM), с высокой плотностью операций, арифметическая интенсивность достигает 100+ FLOPs/байт; в инференсе — матричные умножения вектор-столбец (GEMV), с арифметической интенсивностью менее 2 FLOPs/байт. Чем ниже арифметическая интенсивность, тем больше ограничение накладывает пропускная способность памяти, а не вычислительная мощность — это и есть эффект «стены памяти».

«Бремя» переноса данных при инференсе больших моделей

Процесс инференса больших моделей сводится к тому, что при генерации каждого токена необходимо загрузить все параметры модели из памяти в вычислительный блок. Например, у модели Llama 3 70B — около 140 ГБ весов в FP16. Для генерации одного токена эти 140 ГБ должны быть полностью перенесены. Чтобы обеспечить генерацию 30 токенов в секунду, пропускная способность памяти должна поддерживать примерно 4.2 ТБ/с.

Это уже приближается к возможностям современных GPU. Например, у NVIDIA H100 SXM5 пропускная способность HBM — 3.35 ТБ/с. Значит, даже у самых мощных ускорителей при работе с моделями в 70 миллиардов параметров пропускная способность памяти — «едва хватает». При росте параметров до сотен миллиардов или триллионов, требования к пропускной способности будут расти линейно или даже сверхлинейно.

Двойной вызов — объем и пропускная способность

Объем памяти — еще один важный аспект. Если модель превышает объем HBM одного GPU, ее приходится делить между несколькими GPU (т. н. тензорное параллелизм), что вызывает дополнительные коммуникационные издержки. Передача промежуточных данных между GPU — узкое место, которое может снизить общую эффективность.

Таким образом, ценность HBM — в двух аспектах: пропускная способность определяет скорость генерации текста и задержки, а объем — влияет на возможность разместить всю модель на одном GPU и на стоимость межGPU коммуникаций.

Современная индустрия движется к тому, что HBM становится стандартом для AI-вычислений. По данным TrendForce, к 2025 году спрос на HBM вырастет более чем на 130%, а к 2026 — еще на 70% и более. HBM переходит из нишевого компонента в ключевой элемент цепочки AI-вычислений.

Влияние на всю индустрию: от технологий к рынкам

Рост рынка

Темпы роста рынка HBM превзошли прогнозы. По данным SEMI, к 2026 году объем рынка HBM достигнет 54,6 млрд долларов — почти 40% всего рынка DRAM. Аналитики ожидают, что совокупный потенциальный рынок (TAM) HBM будет расти примерно на 40% в год, достигнув к 2028 году 1000 млрд долларов, что уже превышает весь рынок DRAM 2024 года.

Жесткие ограничения по поставкам

Но спрос растет быстрее, чем производственные мощности. Несмотря на то, что крупнейшие производители — Samsung, SK Hynix, Micron — перенаправили около 70% своих новых мощностей на производство HBM, дефицит остается — по оценкам, он достигает 50-60%.

Производство HBM — очень сложный и дорогой процесс. Требуются передовые технологические узлы (уже — 1β нм), а также сложные технологические процессы: TSV, микровыступы, упаковка на уровне чипа (CoWoS). Хотя планы TSMC по расширению мощностей CoWoS обещают увеличить выпуск до 125 тысяч пластин в месяц к 2026 году, этого все равно недостаточно для удовлетворения спроса от NVIDIA, AMD, Broadcom и других.

Ценовые риски и цепочка поставок

Дефицит отражается на ценах. Стоимость HBM3E в 2025 году выросла на 5-10%. После масштабного перехода производителей к HBM, поставки DDR-памяти для потребительского сегмента сокращаются, и цены на нее могут продолжить расти к концу 2026 года. Недостаток HBM влияет и на всю цепочку памяти.

В июне 2026 года CEO NVIDIA, Jensen Huang, подтвердил, что Samsung, SK Hynix и Micron уже сертифицированы и начали массовое производство HBM4. Samsung запустила массовое производство HBM4 еще в феврале 2026. Но даже при расширении мощностей дефицит по-прежнему оценивается в 50% — спрос превышает предложение.

Итог

От фундаментальных технологических инноваций до жесткой зависимости от AI-вычислений и до дисбаланса спроса и предложения — HBM прошла путь от вспомогательного компонента памяти к ключевому элементу инфраструктуры AI.

Ее незаменимость в обучении и инференсе моделей с триллионами параметров обусловлена базовой логикой: когда параметры модели превышают определенный порог, пропускная способность становится не «оптимизацией», а «фактором, обеспечивающим работу» — ниже этого порога система не сможет эффективно функционировать. GDDR6, хоть и дешевле, при узких каналах и высокой частоте не может обеспечить необходимую пропускную способность для таких масштабов. Эти структурные различия определяют, что в основном сегменте AI-вычислений HBM и GDDR — не конкуренты, а разные уровни решений для разных требований.

В будущем, с запуском HBM4 (пропускная способность более 2 ТБ/с на стек), развитием 16-слойных стеков и новых технологий упаковки, возможности HBM будут расти. Однако есть и альтернативные подходы — например, оптимизация алгоритмов, снижение зависимости от HBM, использование SRAM и архитектур с объединением памяти и вычислений. Удержит ли HBM лидерство в технологическом прогрессе и сможет ли расширение производства устранить текущие ограничения — важнейшие вопросы для развития AI-индустрии в ближайшие годы.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
GateIPOAccessSpaceX
5.29M Популярность
#
AnthropicReleasesFable5Model
642.76K Популярность
#
IsraelStrikesIranBTCPlunges
56.93K Популярность
#
MyGateTradeStory
10.32K Популярность
#
SpaceXIPOAttractsOver250BillionInOrders
1.39M Популярность

Закреплено

Карта сайта

HBM против GDDR: как высокопроизводительная память преодолевает "памятный потолок" в обучении и выводе ИИ

Технический принцип: как HBM перестраивает каналы данных между GPU и памятью

HBM vs GDDR6: битва «широкая и медленная» против «узкая и быстрая»

«Стена памяти»: почему с ростом модели требования к HBM растут экспоненциально

Влияние на всю индустрию: от технологий к рынкам

Итог

Популярные темы

GateIPOAccessSpaceX

AnthropicReleasesFable5Model

IsraelStrikesIranBTCPlunges

MyGateTradeStory

SpaceXIPOAttractsOver250BillionInOrders

Закреплено