В последние годы, с быстрым масштабированием таких AI-направлений, как вывод больших моделей, базы данных в памяти и высокопроизводительные вычисления, центры обработки данных подходят к критической точке по ресурсам памяти. DRAM, когда-то стандартный компонент серверов, теперь стал самым дорогим и дефицитным ресурсом инфраструктуры. Резкий рост цен и жесткое предложение стали ключевыми факторами, сдерживающими темпы развертывания AI-вычислений.

Согласно данным отслеживания Counterpoint Research, цена на память DIMM объемом 64 ГБ выросла в 3,5 раза в период с третьего квартала 2025 года по первый квартал 2026 года, и этот рост еще не достиг пика — ожидается, что к третьему кварталу 2026 года совокупный рост составит 5 раз.

Данные TrendForce еще более наглядны: в первом квартале 2026 года квартальный рост контрактных цен на DRAM составил от 93% до 98%, что привело к увеличению общего дохода мировой DRAM-индустрии на 81% по сравнению с предыдущим кварталом, до 97 миллиардов долларов. Во втором квартале рост не прекратился: ожидается, что контрактные цены вырастут еще на 58%–63%.

Сигналы со спотового рынка еще более очевидны: текущая спотовая цена серверной DDR5 RDIMM составляет от $27 до $37 за ГБ. Стоимость закупки только DRAM-оборудования для создания пула памяти объемом 12 ТБ приближается к $500 000.

Кризис DRAM разразился в полную силу

Корень этого скачка цен — постоянное поглощение производственных мощностей DRAM со стороны HBM.

Согласно раскрытым данным, из-за взрывного роста потребности в высокопропускной памяти для обучения и вывода AI, доля HBM в производственных мощностях DRAM-пластин выросла с 2% в 2020 году до прогнозируемых 25% в 2026 году. Три крупных производителя — Samsung, SK Hynix и Micron — начали перераспределять качественные мощности в сторону высокомаржинального HBM. В 2025–2027 годах доля пластин HBM в общем объеме пластин DRAM составит 18%, 22% и около 30% соответственно. Одна пластина HBM потребляет примерно в три раза больше мощностей, чем DDR5. Крупные производители активно сокращают низкомаржинальные заказы на телефоны и ПК, перебрасывая все мощности на AI. Учитывая, что гиперскейлеры заранее заблокировали будущие пластины долгосрочными контрактами на несколько лет, это еще больше сжимает предложение стандартной DRAM для серверного сегмента.

А жесткость предложения определяет, что дефицит вряд ли удастся смягчить в краткосрочной перспективе.

Передовые процессы DRAM сильно зависят от EUV-литографов, стоимость одного такого оборудования достигает примерно $200 млн, а инвестиции в современный завод по производству пластин составляют десятки миллиардов долларов. Даже при благоприятном сценарии строительный цикл занимает несколько лет. Скорость расширения мощностей значительно отстает от темпов роста потребностей AI.

Jefferies прогнозирует, что без учета влияния китайских производителей, глобальный рост поставок битов памяти в 2026 году составит всего 7%–8%. Совокупный дефицит DRAM и NAND может составить около 150 000–200 000 пластин в месяц. Micron Technology в отчете за третий финансовый квартал 2026 года отметила, что даже если предложение в отрасли постепенно улучшится к 2028 году, пока трудно сказать, когда поставки памяти смогут догнать постоянно растущий спрос.

Кроме того, давление уже распространилось из центров обработки данных на потребительский сектор.

Генеральный директор Xbox Asha Sharma публично заявил, что за последние два года стоимость памяти выросла примерно в пять раз, что напрямую привело к невозможности компании произвести достаточное количество игровых консолей для удовлетворения рыночного спроса. Apple также объявила о повышении цен на iPhone, Mac, iPad и другие продукты.

Аналитик Morgan Stanley Shawn Kim и его команда прямо заявили, что резкий рост цен на память и дефицит предложения превращаются в полномасштабный риск для цифровой экономики, "распространяясь от узких мест в AI-инфраструктуре до маржинальности оборудования, доступности устройств, облачных затрат, инфляции и даже политики".

Изменение доли DRAM в спецификации сервера еще более показательно. В 2023 году DRAM составляла около 50% стоимости сервера; к середине 2026 года эта доля выросла до 60%–90%, в среднем около 75%. Цена на CPU не снизилась, но на фоне стремительного роста цен на память рост цен на CPU кажется незначительным.

Что еще более иронично, память, купленная за большие деньги, используется неэффективно — данные измерений таких гиперскейлеров, как Meta, показывают, что в центрах обработки данных только около половины емкости памяти занята активными "горячими данными", а большое количество холодных данных занимает дорогой ресурс DRAM.

Перед лицом дороговизны и дефицита DRAM игроки отрасли начинают искать альтернативные пути — не просто наращивать оборудование, а использовать технические средства для снижения зависимости от DRAM.

AMD: AI-прогнозирование планирования, превращение флеш-памяти в "невидимую" память

AMD выбрала самый легкий путь программного вмешательства.

В июне 2026 года AMD объявила о приобретении компании по оптимизации памяти MEXT. Ее основная цель — внедрение технологии иерархии памяти на основе AI, которая перемещает холодные данные из дорогой DRAM в дешевую NAND-флеш-память, обеспечивая недорогое расширение эффективной емкости памяти.

Сообщается, что MEXT была основана в 2023 году, а у ее основателей впечатляющий опыт — сооснователь и генеральный директор Gary Smerdon ранее занимал пост главного стратега и директора по продуктам в Fusion-io, пионере коммерциализации флеш-памяти в больших масштабах. Более десяти лет назад Apple и Meta Platforms были его основными клиентами.

MEXT представила технологию иерархии памяти на основе AI, направленную на устранение узких мест эффективности памяти. Эта технология позволяет перемещать редко используемые данные из дорогой DRAM в NAND-флеш-память, стоимость за единицу емкости которой значительно ниже, без влияния на работу приложений.

Основной продукт MEXT — Predictive Memory Engine (Прогнозирующий движок памяти), полностью программное решение иерархии памяти: оно непрерывно отслеживает шаблоны доступа к памяти на уровне страниц, автоматически перемещает редко используемые холодные данные в NAND-флеш — стоимость бита флеш-памяти составляет всего около 1/55 от стоимости DRAM; одновременно с помощью AI-модели изучает закономерности доступа рабочей нагрузки, прогнозирует страницы данных, которые скоро будут запрошены, и активно предварительно извлекает их обратно в DRAM до того, как приложение сделает запрос, позволяя программному обеспечению считывать данные так, как если бы они напрямую обращались к основной памяти, тем самым обеспечивая производительность.

Источник изображения: Nextplat

Весь механизм полностью прозрачен для операционной системы и вышележащих приложений, не требует изменения какого-либо бизнес-кода или добавления специализированного оборудования, а развертывание занимает всего несколько минут.

Официальные данные показывают, что это решение может увеличить эффективную емкость памяти системы в 2–4 раза, а общая стоимость инфраструктуры снижается примерно на 50%. В типичных сценариях, таких как графовая база данных Neo4j, EDA-симуляция, рендеринг видео и т.д., конфигурация с соотношением DRAM и флеш-памяти 1:1 может достигать примерно 95% пропускной способности чистой DRAM-конфигурации, но при значительно меньших затратах.

Ранее MEXT проводила сравнительные тесты на серверах Dell и инстансах AWS:

Сравнительная таблица Dell/AWS с MEXT и без (Источник: Nextplat)

Уже при использовании расширения памяти MEXT с соотношением памяти и флеш-памяти 1:1 и 1:3 показатели производительности и соотношения цена/качество графовой базы данных Neo4j:

Источник: Nextplat

Хотя идея MEXT не революционна — иерархия памяти, перемещение холодных данных в более дешевые носители — эти концепции существуют уже довольно давно. Однако предыдущие технологии не могли быть массово развернуты в центрах обработки данных, ключевая проблема заключалась в недостаточной точности прогнозирования. Если прогноз ошибочен, когда программе требуется данные, их приходится загружать из флеш-памяти в DRAM, что приводит к задержкам, и потеря производительности становится неприемлемой.

Прорыв MEXT заключается в использовании AI-модели для этой задачи. Ее Predictive Memory Engine постоянно анализирует шаблоны доступа к памяти, с помощью AI определяет, какие страницы данных с наибольшей вероятностью будут использованы в ближайшее время, и активно перемещает данные из флеш-памяти обратно в DRAM до того, как приложение сделает запрос.

Для AMD это приобретение закрывает ключевой пробел в ее полном стеке возможностей. Помимо процессоров EPYC, GPU Instinct и программного стека ROCm, уровень эффективности памяти от MEXT позволяет AMD предлагать клиентам комплексное решение от чипов до планирования потоков данных, помогая клиентам снизить общую стоимость владения, уменьшить время простоя GPU "в ожидании данных" и усилить свою конкурентоспособность на рынке AI-инфраструктуры.

В день объявления о приобретении акции AMD выросли почти на 7% в ходе торгов, что рынок воспринял как одобрение этого пути.

Конечно, стоит отметить, насколько технология MEXT в конечном итоге будет внедрена в продукты AMD для центров обработки данных, покажет время. Физическая разница в задержках между NAND-флеш и DRAM объективно существует, и сможет ли программный AI-прогноз действительно преодолеть этот разрыв, покажут результаты масштабного развертывания.

Apple: Локальные большие модели, "сохранение" моделей во флеш-памяти

Когда центры обработки данных испытывают головную боль из-за стоимости DRAM, потребительский сектор сталкивается с теми же ограничениями — объем DRAM в таких устройствах, как телефоны, крайне ограничен, но при этом они должны поддерживать вывод локальных больших моделей. Ответ Apple — хранить большие модели на флеш-памяти и загружать их в память по мере необходимости.

Последняя модель Apple AFM 3 Core Advanced — это локальная большая модель с 20 миллиардами параметров. Если загружать все параметры в DRAM традиционным способом, это значительно превысит лимит памяти потребительских устройств. Apple решила эту проблему с помощью архитектуры разреженного активации: полная модель хранится на NAND-флеш; при выводе загружаются не все веса, а на основе входного промпта выбираются необходимые экспертные модули, и в DRAM загружается только рабочий набор от 1 до 4 миллиардов параметров.

Схема архитектуры модели AFM 3 Core Advanced

В отличие от традиционных MoE-моделей, которые переключают экспертов на каждом токене, вызывая частую пересылку данных, Apple использует механизм маршрутизации на уровне промпта в сочетании с высокой долей общих экспертов, постоянно находящихся в DRAM, что значительно сокращает количество обменов между флеш-памятью и памятью, сводя к минимуму задержки загрузки. В сочетании с оптимизацией, такой как прунинг на уровне инструкций (IFP) и упрощение уровней Transformer, пиковое потребление DRAM для модели с 20 миллиардами параметров удалось удержать в диапазоне от 2 до 8 ГБ, что дополнительно балансирует использование памяти и вычислительную эффективность, эффективно решая проблему большого потребления DRAM при развертывании MoE на конечных устройствах, позволяя модели плавно работать на таких устройствах, как iPhone, реализуя "большую модель на малой памяти" при локальном выводе.

Эта архитектура не является результатом срочных усилий.

Фактически, еще в 2024 году исследовательская группа Apple опубликовала статью "LLM in a Flash", в которой систематически обосновала технический путь хранения параметров больших моделей во флеш-памяти и их загрузки по требованию, что позволяет снизить затраты на облачные вычисления и одновременно обеспечить осуществимую архитектуру памяти для локальных AI-приложений, достигая скорости вывода в 4–5 раз (на CPU) и 20–25 раз (на GPU) быстрее, чем при наивной загрузке.

Когда рост цен на DRAM распространяется от промышленного сектора на потребительскую электронику, это решение как поддерживает опыт локальных AI, так и снижает зависимость устройств от больших объемов DRAM.

В целом, два пути AMD и Apple развиваются одновременно, соответственно для центров обработки данных и конечных устройств, но оба указывают на один и тот же вывод: иерархия памяти для AI-вывода перестраивается. Низкочастотные KV-кэши, веса моделей и данные на конечных устройствах постепенно будут перемещаться из дорогой HBM/DRAM на уровень NAND Flash/SSD, формируя многоуровневую архитектуру хранения.

Этот архитектурный сдвиг создает многоуровневые эффекты передачи вдоль цепочки поставок. По данным Citrini Research, наиболее прямыми бенефициарами являются производители NAND.

Marvell: Аппаратное сжатие + CXL, расширение физической памяти

Если AMD и Apple пошли по пути программной и архитектурной оптимизации, то Marvell выбрала прорыв на уровне оборудования, используя высокоскоростной протокол взаимосвязи CXL для прямого увеличения эквивалентной емкости физической DRAM с помощью технологии аппаратного сжатия.

В июне 2026 года Marvell выпустила серию контроллеров CXL Structera — Structera X (контроллер расширения памяти) и Structera A (ускоритель около памяти). Оба чипа оснащены собственным модулем аппаратного сжатия CDB (Compression-Decompression Block).

Сообщается, что при записи данных в DRAM модуль CDB сжимает их в реальном времени с помощью настраиваемого алгоритма LZ4 без потерь; при чтении синхронно выполняет декомпрессию. Весь процесс выполняется независимо в канале памяти, не используя вычислительные ресурсы хостового CPU и полностью прозрачен для вышележащих приложений. В зависимости от типа данных, 1 ГБ физической DRAM может обеспечить эквивалентную логическую емкость от 2 до 3,64 раза — в сценариях смешанных баз данных средний коэффициент сжатия достигает 3,64 раза, что позволяет удовлетворить те же бизнес-потребности, используя менее трети физической памяти.

Помимо этого, у решения есть две дополнительные возможности снижения стоимости: во-первых, повторное использование старой памяти — контроллер Structera X поддерживает подключение памяти DDR4, позволяя использовать выведенную из эксплуатации DDR4 в пуле памяти CXL, сокращая закупки дорогой DDR5; во-вторых, пулирование памяти — протокол CXL снимает ограничение монопольного использования памяти одним CPU, позволяя нескольким серверам совместно использовать ресурсы памяти, поглощая неиспользуемые емкости в системе.

По текущим спотовым ценам DDR5 от $27 до $37 за ГБ, стоимость только DRAM-оборудования для пула памяти объемом 12 ТБ составляет почти $500 000; при сжатии в 3 раза объем закупки физической DRAM может быть сокращен на две трети, что позволяет сэкономить более $300 000 на одном пуле.

Sandisk: Встраивание NAND под GPU

Решение Sandisk еще более радикально — перестройка архитектуры памяти AI-чипов на уровне корпусировки.

Sandisk совместно с SK Hynix продвигает стандартизацию High Bandwidth Flash (HBF), пытаясь приблизить NAND-флеш-память к вычислительному ядру, создавая новый уровень хранения между HBM и SSD.

Патент Sandisk предлагает архитектуру "NAND под GPU": высокоемкая NAND-флеш-память размещается непосредственно под GPU или AI-ускорителем, окруженная стеками HBM, что значительно сокращает расстояние передачи данных и увеличивает пропускную способность доступа к флеш-памяти. По планам, HBF будет физически совместим с HBM4, емкость может быть в 8–16 раз больше, чем у HBM того же объема, при значительном преимуществе в стоимости, ориентирован на сценарии интенсивного чтения, такие как вывод длинных контекстов, KV-кэш, потоковая загрузка весов моделей.

Эта технология, названная HBF (High Bandwidth Flash, высокопропускная флеш-память), позиционируется между HBM и SSD. Если сравнить HBM со "справочником" на столе, то NAND на основе HBF — это "книжный шкаф" рядом с GPU. HBM обрабатывает данные, требующие немедленного реагирования, а NAND под GPU хранит большие объемы данных и многократно их считывает.

Цель Sandisk — разработать HBF с пропускной способностью, близкой к HBM, и при аналогичной стоимости предоставлять в 8–16 раз большую емкость, чем HBM. В феврале 2026 года Sandisk и SK Hynix официально запустили альянс по стандартизации спецификаций HBF. SK Hynix вносит накопленные в HBM технологии стекирования, корпусировки и промежуточных слоев, а Sandisk — возможности в проектировании NAND и флеш-памяти. Стороны планируют выпустить первые образцы HBF во второй половине 2026 года и применить их в устройствах AI-вывода в начале 2027 года. Цель — построить трехуровневую архитектуру памяти: HBM отвечает за сверхнизкую задержку для мгновенных вычислений, HBF — за большую емкость и высокую пропускную способность для многократно считываемых данных, а SSD — за холодное хранение, каждый уровень выполняет свою функцию.

Конечно, для коммерциализации HBF в широких масштабах необходимо преодолеть множество препятствий: высокая тепловая плотность от стекирования вычислительных чипов и NAND, проблемы с выходом годных при гибридном соединении и сложной разводке, а также программная экосистема для расслоения холодных и горячих данных — все это требует времени для постепенной отработки.

По прогнозам корейской Shinyoung Securities, рынок HBF может сформироваться в 2027 году и вырасти до $12 млрд к 2030 году.

Для облачных провайдеров с десятками тысяч узлов это означает значительную оптимизацию капитальных затрат. Structera в настоящее время является первым серийно выпускаемым CXL-контроллером с аппаратным сжатием на борту. Соответствующие технические решения уже переданы на стандартизацию в проект OCP (Open Compute Project), и в будущем сфера адаптации будет расширяться.

Предыдущий пример: несбывшийся путь 3D XPoint

Надо сказать, использование флеш-памяти для расширения основной памяти — не новость.

Еще в 2015 году Intel и Micron совместно представили технологию 3D XPoint, чье видение точно соответствовало сегодняшним отраслевым болям — создать новый тип носителя данных, производительность которого находится между DRAM и NAND-флеш, поддерживающий байтовую адресацию, с затратами, близкими к флеш-памяти, чтобы построить новый уровень между памятью и традиционным хранением.

К сожалению, 3D XPoint в конечном итоге не оправдал первоначальных обещаний.

Отставание в разработке процессов привело к тому, что его стоимость сравнялась с DRAM, но производительность была лишь в несколько раз выше, чем у обычной флеш-памяти. В сочетании с закрытой стратегией Intel, привязавшей технологию к своим процессорам Xeon, она так и не смогла выйти на массовый рынок. В итоге проект был прекращен, а бизнес по флеш-памяти Intel был продан SK Hynix. Эта технология, на которую возлагались большие надежды, стала печальным примечанием в истории индустрии памяти.

Если бы Intel не отказалась от 3D XPoint, насколько прибыльной была бы сегодня? К сожалению, история не знает сослагательного наклонения.

Кроме того, некоторые китайские стартапы, занимающиеся решениями для вычислений в памяти и пулизации памяти, вероятно, привлекут больше внимания. Ведь в условиях высоких цен на DRAM и сжатия на стороне предложения, тот, кто сможет предложить действительно надежное решение для оптимизации памяти, может получить следующий раунд финансирования на рынке капитала.

Послесловие

От неудачи 3D XPoint до сегодняшних параллельных путей, поиски эффективности памяти в индустрии хранения никогда не прекращались.

AMD использует AI-прогнозирование для расслоения горячих и холодных данных, Apple — разреженную активацию и хранение на флеш-памяти для сжатия потребления памяти на конечных устройствах, Marvell — аппаратное сжатие для увеличения эффективности физической памяти, Sandisk — 3D-стекирование для размещения NAND под ногами GPU. Технические пути четырех компаний различны, но все указывают в одном направлении: иерархия памяти для AI-вывода перестраивается — горячие данные остаются в DRAM и HBM для обеспечения производительности, теплые и холодные данные постепенно опускаются на уровень флеш-памяти для обеспечения емкости, а многоуровневые среды координируют производительность и стоимость.

Дороговизна DRAM "загоняет всю отрасль в угол". Но именно это давление породило ряд впечатляющих технологических инноваций.

Нельзя отрицать, что физический разрыв в задержках между флеш-памятью и DRAM всегда существует, и реальная производительность различных решений требует проверки в ходе масштабного развертывания. Однако можно с уверенностью сказать, что эпоха простого наращивания DRAM для решения проблем подходит к концу. Более эффективная, более многоуровневая система памяти — новое направление развития отрасли.

Этот материал взят из: Semiconductor Industry Observation

Предупреждение о рисках и отказ от ответственности

        На рынке есть риски, инвестиции требуют осторожности. Эта статья не является персональной инвестиционной рекомендацией и не учитывает особые инвестиционные цели, финансовое положение или потребности отдельных пользователей. Пользователям следует учитывать, соответствуют ли любые мнения, точки зрения или выводы в этой статье их конкретной ситуации. Инвестиции на основе этой статьи осуществляются на свой страх и риск.

DRAM1,14%

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
gStocksTokenizedStocksLive
4,82M Популярность
#
StrongNonfarmPayrollsRekindleRateHikeFear
1,07M Популярность
#
IsraelStrikesIranBTCPlunges
68,84K Популярность
#
PredictWorldCupShare20000U
235,72K Популярность
#
ETHBreaks1700
152,64M Популярность

Закреплено

Карта сайта

Мир страдает от DRAM уже давно.

Кризис DRAM разразился в полную силу

AMD: AI-прогнозирование планирования, превращение флеш-памяти в "невидимую" память

Apple: Локальные большие модели, "сохранение" моделей во флеш-памяти

Marvell: Аппаратное сжатие + CXL, расширение физической памяти

Sandisk: Встраивание NAND под GPU

Предыдущий пример: несбывшийся путь 3D XPoint

Послесловие

Популярные темы

gStocksTokenizedStocksLive

StrongNonfarmPayrollsRekindleRateHikeFear

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

ETHBreaks1700

Закреплено