AI-полупроводники: финальная игра — дефицит продлится как минимум еще пять лет?

Оригинальное название: «Прогноз финала AI-полупроводников 2026 (II)» Оригинальный автор: fin, AI-аналитик

Когда структурная эволюция полупроводников перешла к основной линии AI-инференса, память и хранилище стали самым большим узким местом. Самое большое сомнение рынка по поводу памяти и хранилища:

Смогут ли HBM/DRAM/SSD избавиться от традиционной цикличности?

Остановится ли эволюция архитектуры GPU, основанная на экспоненциальном росте HBM? Когда остановится?

Насколько велико влияние расширения производства ChangXin? Вернет ли оно этот рынок в циклическую трясину?

В этой статье мы попытаемся создать структуру для систематизации этих вопросов

Всё циклично, а цикличность памяти особенно сильна. Главная причина — длительный цикл расширения производства, при котором невозможно быстро наращивать мощность, что не совпадает с периодами дефицита спроса.

Несколько возможных способов избавиться от традиционной цикличности:

  1. Кастомизация: продукты невзаимозаменяемы, мощности нельзя просто перенаправить, требуются долгосрочные контракты.

  2. Структурный экспоненциальный рост спроса: кривая спроса сама по себе очень крутая, и предложение постоянно не успевает.

  3. Быстрое обновление технологий: каждое новое поколение быстро вытесняет предыдущее.

Выполнение любого одного пункта позволяет частично избавиться от традиционной цикличности; выполнение двух или трёх — избавляет от большей части традиционной цикличности.

Согласно этой структуре, HBM соответствует примерно двум с половиной пунктам из трёх.

  1. Кастомизация, требующая долгосрочных контрактов (слабо, считается половиной) ====================

HBM действительно имеет элементы кастомизации и совместного проектирования с Nvidia, но не очень сильные. По-настоящему кастомизированы только упаковка и base die, а десятки слоёв DRAM die сверху полностью стандартизированы JEDEC.

Например, когда HBM3E от Samsung не прошёл квалификацию Nvidia, а доля рынка упала примерно с 60% до 20%, компания не просто выбросила эти мощности, а перенаправила их на TPU от Google и AMD. Физически HBM3E для Nvidia и HBM3E для AMD — это одно и то же. Таким образом, мощности всё ещё частично можно свободно перераспределять.

После HBM4 кастомизации станет больше, включая интеграцию кастомной логики и/или кэша на base die. Более сложный способ — поместить контроллер памяти HBM4E и кастомный die-to-die интерфейс непосредственно в логический base die.

SemiAnalysis упоминает, что OpenAI, Nvidia и AMD работают над кастомным HBM, но это касается кастомизации base die, а слои DRAM остаются стандартными.

Из-за частичной кастомизации HBM требует сотрудничества в упаковке, что вынуждает клиентов заключать долгосрочные контракты, но мощности действительно можно перенаправлять. Поэтому HBM с натяжкой можно считать половиной пункта.

  1. Структурный экспоненциальный рост спроса (выполнено) =================

Самая прямая причина — потребность в обновлении оборудования для увеличения пропускной способности токенов на фабрике токенов Nvidia, что приводит к очень быстрой смене поколений пропускной способности HBM и экспоненциальному росту объёма HBM.

Этот пункт, по сути, — вывод из предыдущей статьи «Прогноз финала AI-полупроводников 2026 (I)»:

пропускная способность токенов = объём HBM × пропускная способность HBM, каждое поколение удваивается.

Объём HBM на один GPU растёт примерно на 40% в год.

Крутизна этой кривой спроса такова, что предложение DRAM (рост пластин на 14%, улучшение плотности на 9%) с трудом за ней поспевает.

В области аппаратного обеспечения из-за высоких требований к пропускной способности и объёму памяти для KV-кэша на этапе внимания HBM занимает уникальное положение. Даже если HBM подорожает в 3-5 раз, увеличение предельной пропускной способности токенов от дополнительных затрат на HBM всё равно будет гораздо выгоднее, чем вложения в другие области.

Другие направления памяти — SRAM, HBF, CXL, PIM — сейчас не могут напрямую конкурировать с HBM на главном треке KV-кэша / внимания, и в ближайшие 5 лет или даже дольше вряд ли найдут альтернативу.

  1. Быстрое обновление технологий (выполнено) ===============

Эпоха DDR3 длилась 15 лет, и мы всё ещё в эпохе DDR5, а смена поколений HBM происходит примерно раз в два года — намного быстрее, чем у традиционной DDR. Более того, в последнее время наблюдается ускорение: объём HBM × пропускная способность HBM удваиваются каждое поколение, что полностью соответствует этой закономерности.

С каждым двухлетним поколением HBM скорость GPU Nvidia растёт почти экспоненциально: 2 ТБ/с → 3,5 ТБ/с → 4,8 ТБ/с → 8 ТБ/с → 22 ТБ/с. При этом скорость HBM линейно пропорциональна пропускной способности токенов. Использовать предыдущее поколение HBM становится невыгодно из-за предельных затрат, поэтому все стремятся применять самые новые продукты: они дороже, но приносят больший выигрыш (пропускную способность токенов).

Логика эпохи фабрик токенов: чем больше технологических обновлений (пропускная способность HBM), тем больше прибыли.

Такая разница в скорости создаёт ситуацию, аналогичную CPU: старые продукты быстро обесцениваются, поэтому ценность накопления запасов снижается. Например, HBM3 обесценивается очень быстро; сегодня主流ные продукты его уже не используют.

Таким образом, рациональный выбор производителей HBM смещается от борьбы за долю рынка через текущие мощности (конкуренция по количеству) к борьбе за стабильность и скорость HBM, а также за долю следующего поколения в квалификации на платформе Nvidia (конкуренция по качеству). Это позволяет избежать дилеммы заключённых на традиционном цикле спада, когда никто не хочет сокращать производство и терять долю рынка.

Сравнивая HBM и традиционную DRAM: из трёх условий выполнены два с половиной. Сможет ли HBM избавиться от традиционной цикличности?

Основной нарратив о цикличности памяти: DRAM обладает свойствами товара (отсутствие дифференциации → ценовая война → возможность накопления запасов), поэтому она циклична.

Но сама по себе товарная природа не создаёт цикличность, она лишь усиливает амплитуду колебаний.

Особенно в области DRAM раньше возникала дилемма заключённых: в фазе спада Samsung расширял производство для захвата доли рынка, и тот, кто первым снижал выпуск, проигрывал, поэтому никто не решался сокращать производство, что приводило к огромным убыткам.

На самом деле основная структурная причина цикличности — слишком длинный цикл предложения, который легко расходится с циклом спроса. Строительство фабрики занимает 3 года, инвестиции — десятки миллиардов долларов, решение необратимо, а рост спроса нестабилен. Каждый раз, когда появляется новый парадигмальный рост (например, облачные услуги, мобильный интернет, пандемийный онлайн-спрос), происходит взрывной рост, но через два года рост замедляется, предложение превышает спрос, цены резко падают, и наступает цикл убытков.

Всё циклично, и HBM не исключение. Но пока спрос на токены растёт экспоненциально, структурный экспоненциальный рост ослабляет цикличность, потому что спрос становится более предсказуемым. К тому же, как только цены падают, у клиентов появляется стимул увеличивать объём HBM (а значит, и пропускную способность токенов). Плюс кастомизация HBM требует долгосрочных контрактов, что превращает цикличность в ростовую цикличность, и этот цикл будет особенно длинным.

· Цикличность: в фазе подъёма много прибыли, в фазе спада — много убытков. · Ростовая цикличность: в фазе подъёма много прибыли, в фазе спада — меньше прибыли.

Кроме того, на основе этих трёх условий для избавления от традиционной цикличности HBM/DRAM имеют ещё одно важное преимущество:

  1. Из-за замедления масштабирования плотности DRAM и увеличения числа слоёв DRAM при смене поколений HBM сложность расширения производства со стороны предложения постоянно растёт. ====================================================================

Около 2000 года плотность битов DRAM на пластину росла примерно на 45% в год. Это означало, что даже без увеличения количества пластин ежегодный объём битов DRAM мог расти на 45%.

Десять лет назад годовой рост плотности битов DRAM снизился до 20%, а сейчас — до 9%. Раньше для расширения производства DRAM не нужно было строить новые заводы, чтобы получить ежегодный рост объёма битов на 20–30%. Теперь для расширения DRAM требуется в основном увеличение количества пластин, то есть строительство новых заводов и чистых комнат.

Ещё одна сложность быстрого расширения HBM заключается в том, что HBM3e требует примерно в 3 раза больше пластин DRAM, а HBM4 из-за увеличения плотности укладки — примерно в 4 раза больше пластин DRAM. Это означает, что производство битов HBM становится всё более сложным по сравнению с битами DRAM: всё меньше битов HBM производится на единицу пластин DRAM, что фактически является дефляцией.

Сможет ли HBM в будущем превратиться из ростовой цикличности обратно в традиционную? Самый важный фактор — структурный экспоненциальный рост. Итак,

Остановится ли в эпоху AI-инференса эволюция архитектуры GPU, основанная на экспоненциальном росте HBM? Когда остановится?

пропускная способность токенов = объём HBM × пропускная способность HBM. Причина роста объёма HBM в рамках этого первого принципа экспоненциального роста — рост KV-кэша. Характеристики KV-кэша и внимания также очень хорошо сочетаются с HBM. Это даже позволяет HBM опережать другие технологические направления, максимально эффективно используя этапы KV-кэша и внимания.

Другими словами, если KV-кэш исчезнет архитектурно, то логика экспоненциального роста объёма HBM также будет поставлена под сомнение.

Таким образом, суть вопроса: исчезнет ли механизм внимания на основе Transformer и производный от него механизм KV-кэша? Будут ли они заменены после спада?

Из исторических закономерностей: в каждой революции архитектуры AI-моделей реально сохраняются те примитивные операции, которые обладают математической универсальностью.

Например: FFN (сеть прямого распространения, то есть множество слоёв MLP в модели) появился в эпоху глубокого обучения около 2012 года, но дожил до сегодняшних больших языковых моделей и всё ещё занимает значительную часть параметров модели. Почему он выжил? Потому что это также теорема универсальной аппроксимации: любой достаточно широкий MLP может аппроксимировать любую непрерывную функцию.

Вероятно, внимание также будет таким сохраняемым примитивом. Потому что оно решает такую же фундаментальную задачу: динамическая маршрутизация между любыми двумя позициями в последовательности, позволяя любым двум позициям устанавливать связи по мере необходимости. Как только эта способность доказала свою эффективность, от неё трудно отказаться.

Поэтому, даже если будущие архитектуры будут эволюционировать от чистого Transformer к гибридным или к мировым моделям, слои внимания всё равно будут существовать, KV-кэш (или его эквивалент после латентного сжатия) всё ещё будет нужен, HBM по-прежнему будет одним из ядер инференса. Эволюция архитектуры GPU, основанная на экспоненциальном росте HBM и KV-кэша, не остановится.

А что насчёт DRAM? Есть ли у неё возможность избавиться от традиционной цикличности в будущем?

На рынке есть определённый консенсус относительно того, что HBM избавляется от цикличности, но относительно DRAM такого консенсуса пока практически нет.

Вернёмся к нашей структуре. Из трёх условий для избавления от традиционной цикличности DRAM не имеет кастомизации, поэтому остаётся только скорость обновления технологий. Ключевой вопрос — есть ли структурный экспоненциальный рост? Ответ — да.

В концепции AI-фабрики токенов структурный экспоненциальный рост действительно в основном приходится на HBM. Но после конца 2025 года ситуация изменилась: с началом раскрытия потенциала агентных CPU спрос на DRAM, привязанный к CPU, становится новым источником структурного экспоненциального роста DRAM.

Логика этого роста состоит из двух уровней: первый уровень — быстрый рост TAM серверных CPU, второй уровень — быстрый рост объёма DRAM на одно ядро CPU из-за агентных потоков.

Четыре причины быстрого роста TAM серверных CPU подробно описаны в апрельской статье, посвящённой CPU. Кратко:

  1. В кластерах AI-ускорителей соотношение CPU и GPU меняется с традиционного 1:4 на 1:2 и, возможно, движется к 1:1.

  2. В агентных потоках задержка обработки CPU составляет 50–90%, становясь важным узким местом, требующим синхронного расширения.

  3. AI-кодирование значительно повышает эффективность разработчиков SDE, объём кода растёт на порядки, количество вызовов API увеличивается экспоненциально, что напрямую приводит к экспоненциальному росту часов работы CPU.

  4. Песочницы для обеспечения безопасности и изоляции данных, например, аналитическим агентам нужно копировать большие объёмы баз данных и пользовательских контекстов для каждой задачи, что приводит к серьёзным потерям памяти (DRAM) и ядер CPU. Эта проблема не решаема в ближайшие пять лет и более. Кроме того, часы работы CPU технически трудно сжать путём оптимизации.

Именно поэтому в позапрошлом квартале AMD в отчёте говорила, что TAM CPU к 2030 году достигнет 60 млрд долларов; два месяца назад AMD/ARM удвоили прогноз TAM CPU на 2030 год до 120 млрд; месяц назад Nvidia снова удвоила прогноз TAM CPU на 2030 год до 200 млрд.

А на прошлой неделе Bernstein повысил прогноз TAM CPU на 2030 год до 223 млрд. На мой взгляд, повышение прогноза TAM CPU на 2031 год до 400 млрд — это почти неизбежно; единственный вопрос — когда именно крупные игроки объявят об этом повышении.

Второй уровень: почему объём DRAM на одно ядро CPU в эпоху агентов быстро растёт?

  1. Агенты — это долгоживущие процессы с состоянием, а не безсостоятельные запросы-ответы

Традиционные веб/SaaS являются безсостоятельными: запрос поступает, выделяется память, после обработки память сразу освобождается. А задача агента может выполняться от минуты до часа. В течение всего этого времени его история сообщений, системный промпт, рабочая память, долговременная память, буфер результатов инструментов постоянно находятся в DRAM.

Как и в случае с часами CPU, из-за требований к сохранению состояния и изоляции песочниц (каждая задача копирует базу данных и контекст) размер памяти для каждой задачи технически трудно сжать.

  1. Контекстное окно экспоненциально растёт, рабочее множество каждого сеанса расширяется; параллелизм × объём памяти одного сеанса, мультипликативный эффект.

Контекстное окно увеличилось с 32K → 256K → 1M, длина последовательности для рассуждений / вычислительных затрат во время тестирования взрывообразно растёт и будет расти дальше. Количество сообщений, постоянно хранящихся в каждом активном сеансе, линейно растёт с длиной контекста.

Теперь перемножим два уровня.

Первый уровень: TAM серверных CPU к 2030–2031 годам примерно в 5–7 раз (60B → 120B → 200B → 223B, я считаю, будет 400B).

Второй уровень: объём DRAM на один CPU примерно в 3–4 раза (4~8 ГБ → 16~32 ГБ/ядро), но этот рост, возможно, в основном разовый бонус.

Умножение двух независимых переменных даёт рост спроса на DRAM со стороны серверов на порядки.

К 2030 году, даже по консервативному прогнозу TAM CPU в 300 млрд долларов, при цене одного ядра CPU в 50 долларов и минимальном объёме DRAM на ядро в 16 ГБ в эпоху агентов, дополнительный объём составит как минимум 96 экзабайт. Для сравнения: общий объём производства DRAM в этом году — 47 экзабайт, в следующем — с трудом 60 экзабайт. Это потрясающий прирост.

Хотя экспоненциальный рост DRAM, вызванный агентными CPU, во втором уровне во многом является разовым бонусом, он продлится очень долго, потому что размер дефицита просто огромен.

Вернёмся к структуре в начале статьи. Из трёх условий для избавления от традиционной цикличности первое — кастомизация DRAM — можно практически игнорировать.

Второе условие: структурный, экспоненциальный и трудно обратимый источник спроса существует. Товарная DRAM теперь также частично может претендовать на избавление от традиционной цикличности. Не так радикально, как HBM (два с половиной пункта), но это уже существенное изменение.

Третье условие: скорость обновления технологий. Ритм DRAM тоже изменился по сравнению с прошлым.

Раньше скорость обновления технологий DRAM сильно зависела от потребительской электроники. Прогресс DDR мало влиял на производительность, но в обозримом будущем объём потребления традиционной углеродной DRAM будет значительно меньше, чем объём потребления кремниевой DRAM (серверные CPU).

Раньше предельная полезность от увеличения скорости DRAM была очень низкой. Но теперь, из-за роста потребности серверных CPU в памяти и повышения требований к скорости DDR для устройств на стороне (например, Apple для запуска локальных больших моделей увеличивает скорость LPDDR), полезность от увеличения скорости значительно выросла.

Поэтому требования к скорости обновления поколений DDR6 и LPDDR6 стали гораздо выше, чем раньше. Это видно на графике: время между поколениями LPDDR6/DDR6 сократилось, а наклон кривой скорости снова начал расти.

Раньше при выходе нового поколения DDR/LPDDR реакция была холодной; их использовали только после снижения цен.

Теперь же при выходе LPDDR6 все компании стремятся внедрить его как можно раньше, потому что повышение скорости даёт ощутимый прирост производительности.

Кроме того, предложение DDR облагается дополнительным налогом со стороны HBM. HBM расширяется слишком быстро, из-за чего каждый год часть пластин, которые могли бы пойти на товарную DDR, перенаправляется на HBM. При этом коэффициент конверсии крайне низок: для HBM3E требуется примерно 3 пластины DDR для производства эквивалентного количества битов, для HBM4 — 4 пластины. Таким образом, ежегодно около 3–5% роста битов DDR съедается этим налогом HBM.

Хотя общий объём битов DRAM может расти на 24% в год (14% за счёт роста числа пластин, 9% за счёт роста плотности DRAM на пластину), после вычета налога HBM годовой рост битов традиционной, не-HBM товарной DDR составляет примерно 20% (около 10% роста пластин × около 9% улучшения плотности узла).

Насколько велико влияние расширения производства китайской ChangXin? Если они будут безрассудно наращивать производство, вернут ли они этот рынок в циклическую трясину?

В последние годы ChangXin расширяется довольно быстро. В 2025 году — 200 000 пластин в месяц. К 2026 году за счёт пекинской фабрики и новых линий объём достигнет 320–350 000.

В настоящее время строится шанхайская фабрика (первая и вторая очереди). Первая очередь, как ожидается, к 2027 году добавит 100 000 пластин в месяц, вторая очередь к 2028 году — ещё 100 000 пластин в месяц. То есть к 2027 году будет 420 000 пластин в месяц, к 2028 году — 500 000 пластин в месяц.

Но следует отметить, что плотность битов DRAM у ChangXin примерно вдвое меньше, чем у «большой тройки». Таким образом, при 500 000 пластин в месяц объём битов DRAM, производимых ChangXin, вдвое меньше, чем у других. При расчёте пластин в месяц учитываем это как половину.

С учётом этой скидки влияние ChangXin на всю DRAM-индустрию значительно уменьшается. С конца 2025 года до конца 2028 года влияние ChangXin на CAGR объёма битов DRAM составляет всего около 1,5%. Общий CAGR для всей отрасли DRAM увеличится примерно с 12,7% до 14,2%.

· DRAM месячная мощность (тыс. пластин в месяц) 2025E → 2028E CAGR · Samsung 685K → 920K 10,3% · SK Hynix 519K → 725K 11,8% · Micron 340K → 560K 18,1% · Другие (не Китай) 150K → 218K 13,3% · Китай (плотность пополам) 117K → 274K 32,8% · Всего с Китаем 1811K → 2697K 14,2% · Всего без Китая 1694K → 2423K 12,7%

Даже если ChangXin сохранит нынешние темпы увеличения производства, к 2030 году влияние на ежегодный CAGR объёма битов DRAM для всей отрасли составит менее 3%: с 20% CAGR до 23% CAGR — и не более того.

Кроме того, ChangXin ограничен оборудованием для литографии, в то время как DDR6 требует более высоких скоростей (от 14400 МТ/с) и большей плотности. «Большая тройка», скорее всего, будет делать DDR6 на 1c или более совершенных узлах (менее 12 нм) с использованием EUV. ChangXin, возможно, будет ограничен по скорости DDR6, а плотность составит лишь половину.

Даже при ростовой цикличности, почему этот суперцикл DRAM продлится так долго — как минимум пять лет без видимого конца?

Первая причина — огромный рост спроса на стороне серверных CPU, о котором говорилось выше, создающий структурный экспоненциальный рост спроса на DRAM. В сочетании с тем, что CAGR объёма битов со стороны предложения DRAM стабильно составляет около 20%, можно чётко увидеть, почему дефицит DRAM будет расти в ближайшие годы:

Предложение традиционной DRAM (не HBM) растёт примерно на 20% в год. Спрос: при TAM CPU в 60 млрд долларов в 2026 году, среднем потреблении DRAM на CPU 8 ГБ/ядро и цене ядра 30–35 долларов, спрос составляет 16 экзабайт.

К 2030 году при TAM CPU в 400 млрд, среднем потреблении DRAM 16 ГБ/ядро и цене ядра 80 долларов (цена CPU выросла более чем вдвое), спрос составит 80 экзабайт. CAGR роста этой части DRAM составляет около 50%, что намного превышает текущие оценки.

В отличие от HBM, который напрямую связан с пропускной способностью токенов и, следовательно, с эффективностью заработка GPU, недостаток DRAM в первую очередь влияет на скорость агентных потоков. Например, при 8 ГБ/ядро по сравнению с 16 ГБ/ядро скорость некоторых рабочих нагрузок может снизиться на 30%; для некоторых низкоценных задач можно и подождать. Мотивация к структурному экспоненциальному росту сильная, но спрос не так жёсткий, как на GPU.

SemiAnalysis говорит, что в этом году дефицит DRAM составит однозначные проценты, в следующем году — более 10%. Судя по структурному росту DRAM, вызванному резким увеличением числа агентных CPU, этот дефицит будет ежегодно увеличиваться и до 2030 года не видно снижения.

Ещё одна причина, по которой DRAM остаётся сильным в течение длительного времени, — это то, что спрос, уничтоженный повышением цен, на самом деле не исчезает, а лишь откладывается. Резервуар спроса слишком велик.

Под резервуаром подразумевается потенциальный спрос, который будет немедленно высвобожден, как только цены на память снизятся. Их существование означает, что даже если предложение временно догонит спрос, цены вряд ли рухнут, потому что из резервуара всегда появится новый спрос, чтобы поддержать рынок:

Производительность/скорость памяти как резервуар:

Существует множество потребностей в дополнительной памяти для оптимизации скорости и производительности, которые сдерживаются, когда память слишком дорога, и высвобождаются, когда цены падают.

Например, ускоритель префиллов CPX от Nvidia изначально задумывался как специализированный ускоритель на дешёвой GDDR7, но из-за того, что LPDDR/GDDR стали дороже, чем HBM до повышения цен, рентабельность этого решения оказалась невыгодной. Однако, когда цены на обычную память снизятся, такие оптимизационные решения, как CPX, вернутся.

Низкоценные задачи как резервуар: Когда цены на память высоки и стоимость токенов остаётся высокой, в первую очередь выполняются ценные задачи, а низкоценные откладываются. Когда цены на память снижаются, этот отложенный спрос возвращается.

Периферийный AI как резервуар: Конфигурация памяти для AI-ПК может вырасти с 24 ГБ до 128 ГБ. Apple уже потребовала обновить память с 8 ГБ до 12 ГБ для полноценной работы последней версии периферийного AI.

Спрос на обычные потребительские электронные устройства, агентные ПК и недорогие телефоны, снизившийся из-за роста цен на память, — это всё резервуары.

Эти многочисленные резервуары образуют чрезвычайно толстую буферную подушку спроса. Именно поэтому структурный рост DDR в этот раз окажется сильнее, чем ожидает рынок.

Ещё одна причина, по которой цены на DRAM вряд ли сильно упадут, — это взаимозаменяемость мощностей HBM и DRAM, что приводит к общему переоцениванию всего комплекса DRAM.

В фазе подъёма рентабельность DRAM значительно превышает рентабельность HBM; рост цен на HBM даже определяется DRAM. Цена на HBM4, подписанная в этом году, равна текущей цене DRAM × 4, что соответствует нормальному коэффициенту укладки для HBM4.

Как только цены на DRAM снизятся и маржа упадёт, HBM, благодаря прозрачности долгосрочных контрактов и гарантированной рентабельности, косвенно оттянет на себя больше мощностей DRAM. Снижение цен на HBM также даст производителям GPU стимул максимально увеличивать объём HBM, что косвенно защитит нижнюю границу цен на DRAM.

Структурный экспоненциальный рост спроса на DRAM есть, сложность расширения производства из-за замедления масштабирования плотности растёт, производители осторожны в своих планах, влияние ChangXin в ближайшие годы ограничено, а резервуар спроса огромен. Эти четыре причины приводят к тому, что в обозримой перспективе, как минимум на пять лет или дольше, DRAM вряд ли войдёт в циклический спад.

Есть ли надежда у NAND SSD избавиться от традиционной цикличности?

Драйверы структурного роста NAND не так сильны, как у DDR. Основная причина нынешнего дефицита — хорошая производственная дисциплина нескольких основных игроков, которые не проводили масштабного расширения. Ежегодное увеличение мощностей в основном происходит за счёт технологических улучшений: увеличения количества слоёв NAND.

Первый структурный рост исходит от AI, в основном от выгрузки KV-кэша: перенос тёплого/холодного KV-кэша из HBM на NAND SSD.

Но удивительно, что этот рост выгрузки KV-кэша ещё не произошёл в массовом масштабе, а SSD уже дефицитнее, чем DRAM, и рост цен больше. Когда в следующем году Rubin CMX начнёт поставляться в больших объёмах, а выгрузка KV-кэша получит массовое применение, дефицит SSD также усилится из-за этого структурного роста.

Второй: другой структурный прирост, упомянутый в прошлогоднем итоговом обзоре, — AI-видео, которое в этом году уже начинает набирать обороты.

Объём Seedance растёт в 10–40 раз в год. Сейчас он всё ещё ограничен нехваткой вычислительных мощностей; спрос сдерживается нехваткой карт. Но когда эта фаза пройдёт, структурный спрос на NAND-память со стороны AI-видео будет расти в течение длительного времени.

Третий структурный рост также исходит от экспоненциального роста использования песочниц в агентных потоках. Песочницы для обеспечения безопасности и изоляции данных, например, аналитическим агентам нужно копировать большие объёмы баз данных и пользовательских контекстов для каждой задачи, что приводит к серьёзным потерям DRAM и ядер CPU, а также к огромным потерям (спросу) на SSD.

Четвёртый структурный рост, который, возможно, проявится после 2030 года, исходит от использования SSD в направлении HBF. Это направление возлагает большие надежды во многих инвестиционных банках, но оно ещё далеко. Основная роль — хранение весов больших моделей: запись весов один раз, затем только чтение, и обязательно в одной упаковке с GPU/HBM (48 ТБ/с / 96 ТБ/с), иначе через PCIE7/8 скорость слишком мала для использования. Это лишь вопрос будущего. В следующей статье «Прогноз финала AI-полупроводников 2026 (III)» будет более подробный анализ.

В итоге, структурный рост NAND SSD не так силён, как у HBM, но побеждает за счёт дешевизны: цена к 2027 году составит всего 0,8 доллара за ГБ, что в 40 раз дешевле современной DRAM. Таким образом, это своего рода универсальное свойство в многоуровневом кэше, источники структурного роста слишком обширны.

То есть не может быть ситуации, когда DRAM/HBM дорожают сами по себе, а SSD не дорожает. Если бы такое случилось, все бы попытались использовать SSD для выполнения части функций DRAM/HBM, добиваясь аналогичного эффекта с меньшими затратами. HBM, DRAM и NAND — это не три независимые истории, а структурный рост одной и той же иерархии памяти AI на разных температурных уровнях.

Итак, есть структурный экспоненциальный рост спроса. Избавился ли NAND SSD от цикличности? Тогда нужно смотреть на производственную дисциплину производителей NAND SSD. Единственный возможный нарушитель — YMTC (Yangtze Memory Technologies Co.). Ведь это дилемма заключённых: как только один безрассудно наращивает производство, вся NAND-индустрия, расширяться гораздо проще, чем DRAM.

Но как минимум, этот цикл NAND тоже является суперциклом. Благодаря спросу от нескольких структурных экспоненциальных факторов спада можно избежать как минимум до 2030 года.

Оригинальная ссылка

Нажмите, чтобы узнать о вакансиях в BlockBeats

Добро пожаловать в официальное сообщество BlockBeats:

Telegram-канал подписки: https://t.me/theblockbeats

Telegram-чат общения: https://t.me/BlockBeats_App

Официальный Twitter-аккаунт: https://twitter.com/BlockBeatsAsia

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено