Прогнозування кінцевої гри напівпровідників ШІ: дефіцит триватиме щонайменше п'ять років?

Question

> Оригінальна назва: «AI Semiconductor Endgame 2026(II)» > Оригінальний автор: fin, AI аналітик

Коли напівпровідники структурно еволюціонують до основної лінії AI інференції, пам'ять і зберігання стають найбільшим вузьким місцем. Найбільші сумніви ринку щодо пам'яті та зберігання:

Чи позбудуться HBM/DRAM/SSD традиційної циклічності?

Чи зупиниться еволюція архітектури GPU, що залежить від експоненціального зростання HBM? Коли зупиниться?

Який вплив матиме розширення виробництва ChangXin? Чи поверне це ринок у циклічне болото?

Ця стаття намагається створити рамки для розгляду цих питань

Все має цикли, а циклічність пам'яті особливо сильна. Найбільше джерело – надто довгий цикл розширення виробництва, неможливість швидко нарощувати потужності та невідповідність періодам дефіциту попиту.

Можливі способи позбутися традиційної циклічності:

Кастомізація: продукти не взаємозамінні, потужності не можна легко переміщувати, потрібні довгострокові контракти.
Структурне експоненціальне зростання попиту: крива попиту дуже крута, а пропозиція постійно відстає.
Швидке оновлення технологій: кожне нове покоління швидко витісняє попереднє.

Виконання будь-якої з цих умов дозволяє частково позбутися традиційного циклу; виконання двох-трьох – позбутися більшої частини.

Відповідно до цієї рамки, HBM відповідає приблизно двом з половиною з трьох умов.

Кастомізація, потрібні довгострокові контракти (слабка, вважається половиною) ====================

HBM справді має елементи кастомізації та спільного проєктування з Nvidia, але не дуже сильні. Справді кастомізовані лише пакування та base die, а десятки шарів DRAM die зверху повністю стандартизовані JEDEC.

Наприклад, коли HBM3E від Samsung не пройшов кваліфікацію Nvidia, і частка впала приблизно з 60% до 20%, вони не списали ці потужності, а перенаправили їх на TPU від Google та AMD. Фізично HBM3E для Nvidia та HBM3E для AMD – це те саме. Тому потужності все ще можна частково вільно переміщувати.

Після HBM4 кастомізація збільшиться, включаючи інтеграцію кастомної логіки та/або кешу на base die. Складніший спосіб – розмістити контролер пам'яті HBM4E та кастомний die-to-die інтерфейс безпосередньо на логічному base die.

SemiAnalysis згадує, що OpenAI, Nvidia та AMD кожна працює над кастомним HBM, але це стосується кастомізації base die, а шари DRAM зверху залишаються стандартними.

Через часткову кастомізацію HBM потребує співпраці в пакуванні, що змушує клієнтів підписувати довгострокові контракти, але потужності дійсно можна перенаправляти. Тому HBM ледве можна вважати половиною.

Структурне експоненціальне зростання попиту (виконано) =================

Найочевидніша причина – потреба в апаратному оновленні для збільшення пропускної здатності токенів на фабриці токенів Nvidia, що призводить до дуже швидкого оновлення смуги пропускання HBM та експоненціального зростання розміру HBM.

Це, власне, висновок попередньої статті «AI Semiconductor Endgame 2026(I)»:

Пропускна здатність токенів = розмір HBM × смуга пропускання HBM, кожне покоління подвоюється.

Розмір HBM на один GPU зростає приблизно на 40% і більше на рік.

Крутизна цієї кривої попиту набагато вища, ніж зростання пластин DRAM на 14% і щільності на 9% з боку пропозиції.

В апаратній сфері через високі вимоги до смуги пропускання та об'єму пам'яті KV cache на етапі attn, HBM займає унікальне положення. Навіть якщо HBM подорожчає в 3-5 разів, витрати на HBM для збільшення пропускної здатності токенів все одно вигідніші, ніж витрати на інші компоненти.

Інші напрямки пам'яті, такі як SRAM, HBF, CXL, PIM, зараз не можуть конкурувати з HBM на основному треку kv cache/attention. Принаймні в найближчі 5 років або навіть довше навряд чи знайдуть альтернативу.

Швидке оновлення технологій (виконано) ===============

Епоха DDR3 тривала 15 років і досі перейшла лише до DDR5. А оновлення HBM відбувається приблизно раз на два роки, набагато швидше за традиційні DDR, і останнім часом має тенденцію до прискорення. Розмір HBM × смуга пропускання HBM подвоюються кожне покоління.

Кожні два покоління HBM оновлюються, швидкість GPU Nvidia зростає експоненціально: 2TB/s -> 3.5TB/s -> 4.8TB/s -> 8TB/s -> 22TB/s. Швидкість HBM лінійно пропорційна пропускній здатності токенів інференції. Використання старого покоління HBM стає невигідним, всі прагнуть використовувати найновіші продукти, хоча вони дорожчі, але дають більше вигоди (пропускна здатність токенів).

Логіка епохи фабрики токенів: чим більше технологічного оновлення (смуга пропускання HBM), тим більше заробітку.

Ця різниця в швидкості створює ситуацію, схожу на CPU: старі продукти швидко знецінюються, тому цінність запасів знижується. Наприклад, HBM3 швидко втрачає вартість, сьогодні його майже не використовують.

Тому раціональний вибір виробників HBM – від боротьби за частку ринку через поточні потужності (кількісна конкуренція) перейти до боротьби за технології стабільності та швидкості наступного покоління, за частку кваліфікації на платформі Nvidia (якісна конкуренція). Це дозволяє уникнути дилеми ув'язненого, коли в традиційному спадному циклі всі не хочуть скорочувати виробництво, щоб не втратити частку.

Порівняння HBM і традиційної DRAM: задовольняє дві з половиною з трьох умов. Чи зможе HBM позбутися традиційної циклічності?

Основне джерело циклічності пам'яті, згідно з загальноприйнятою думкою, полягає в тому, що DRAM має властивість товару (недиференційований → цінова війна → можливість накопичення запасів). Тому вона циклічна.

Але сама властивість товару не створює циклу, вона лише підсилює амплітуду.

Особливо в сфері DRAM колись виникала дилема ув'язненого: під час спаду Samsung нарощував виробництво, щоб захопити частку. Хто першим скоротить – той програє. В результаті ніхто не наважувався скорочувати, і всі зазнавали величезних збитків.

Насправді основне структурне джерело циклічності – надто довгий цикл пропозиції, який легко розходиться з циклом попиту. Будівництво фабрики займає 3 роки, інвестиції – десятки мільярдів доларів, рішення незворотне, а зростання попиту нестабільне. Кожного разу, коли з'являється новий парадигмальний ріст (наприклад, хмарні послуги, мобільний інтернет, онлайн-попит під час пандемії), відбувається вибуховий ріст. Через два роки ріст сповільнюється, пропозиція перевищує попит, ціни різко падають, і починається цикл збитків.

Все має цикли. HBM також не може уникнути цього, але доки попит на токени залишається експоненціальним, структурне експоненціальне зростання послабить циклічність. Попит стає більш передбачуваним. Коли ціни падають, клієнти мають стимул збільшувати розмір HBM (що збільшує пропускну здатність токенів). Крім того, через певну кастомізацію HBM, потрібні довгострокові контракти. Це перетворює циклічність на циклічність зростання, і цей цикл буде особливо довгим.

· Циклічність: у період підйому заробляють багато, у період спаду – багато втрачають. · Циклічність зростання: у період підйому заробляють багато, у період спаду – заробляють менше.

Крім того, HBM/DRAM мають ще одну важливу перевагу на додаток до цих трьох умов:

Через уповільнення масштабування щільності DRAM та збільшення кратності стеків через оновлення HBM, складність розширення пропозиції постійно зростає. ====================================================================

Близько 2000 року щільність DRAM бітів на одну пластину зростала приблизно на 45% на рік. Тобто навіть без збільшення кількості пластин, щорічний приріст DRAM бітів з боку пропозиції становив 45%.

Десять років тому щорічний приріст щільності DRAM бітів знизився до 20%, а зараз – до 9%. Раніше DRAM могла нарощувати виробництво на 20-30% бітового об'єму на рік, навіть не будуючи нових заводів. Тепер для розширення DRAM потрібно більше покладатися на збільшення кількості пластин, тобто будівництво нових заводів і чистих кімнат.

Ще одна складність швидкого розширення HBM полягає в тому, що HBM3e потребує приблизно в 3 рази більше пластин DRAM, а HBM4 через збільшення щільності стеків потребує приблизно в 4 рази більше пластин DRAM. Це означає, що HBM біти стають все складнішими у виробництві порівняно з DRAM бітами, кількість HBM бітів на одну пластину DRAM зменшується, тобто відбувається дефляція.

Чи може HBM колись повернутися від циклічності зростання до традиційної циклічності? Найважливіший фактор – структурне експоненціальне зростання. Тоді:

Чи зупиниться еволюція архітектури GPU, що залежить від експоненціального зростання HBM для AI інференції? Коли зупиниться?

Пропускна здатність токенів = розмір HBM × смуга пропускання HBM. Причина зростання розміру HBM у цій першопричині експоненціального зростання HBM – це зростання KV cache. Характеристики KVCache та Attention дуже добре підходять для HBM. Це навіть дозволяє HBM випереджати інші технологічні напрямки, максимізуючи використання на етапах KVCache та Attention.

Іншими словами, якщо KV cache зникне з архітектури, то логіка експоненціального зростання розміру HBM також буде під загрозою.

Отже, суть цього питання: чи зникнуть механізм attention, представлений Transformer, та похідний від нього механізм KV cache? Чи будуть вони замінені після спаду?

З історичних закономірностей: кожна революція архітектури AI моделей, що дійсно зберігається, – це примітивні операції, які мають певну математичну універсальність.

Наприклад: FFN (Feedforward Network, велика кількість шарів MLP у моделях) виникла в епоху глибокого навчання 2012 року, але вона дожила до сучасних великих мовних моделей і все ще займає значну частину параметрів. Чому вона вижила? Тому що це також універсальна теорема апроксимації: будь-який досить широкий MLP може апроксимувати будь-яку неперервну функцію.

Attention, ймовірно, також буде таким примітивом, який збережеться. Тому що він вирішує таку ж фундаментальну проблему: динамічне маршрутизація між будь-якими двома позиціями в послідовності, що дозволяє встановлювати зв'язки за потребою. Ця здатність, після підтвердження її ефективності, навряд чи буде відкинута.

Тому навіть якщо майбутня архітектура еволюціонує від чистого Transformer до гібридної або до світової моделі, шар attention все одно існуватиме. KV cache (або його еквівалент після латентного стиснення) все ще буде потрібен. HBM залишиться одним із ядер інференції. Еволюція архітектури GPU для KV cache, що залежить від експоненціального зростання HBM, не зупиниться.

А як щодо DRAM? Чи можливо в майбутньому позбутися традиційної циклічності?

На ринку існує певний консенсус щодо того, що HBM позбавляється циклічності, але щодо DRAM такого консенсусу майже немає.

Повернемося до нашої рамки. З трьох умов позбавлення традиційного циклу DRAM не має кастомізації, тому залишається лише швидкість технологічного оновлення. Найважливіше – чи існує структурне експоненціальне зростання? Відповідь: так.

У концепції AI фабрики токенів структурне експоненціальне зростання дійсно стосується в основному HBM. Але після кінця 2025 року ситуація змінилася: з початком розкриття потенціалу агентних CPU, попит на DRAM, що супроводжує CPU, стає новим джерелом структурного експоненціального зростання DRAM.

Логіка цього зростання має два рівні: Перший рівень – швидке зростання TAM серверних CPU. Другий рівень – швидке зростання об'єму DRAM, що припадає на одне ядро серверного CPU через агентні потоки.

Чотири логіки швидкого зростання TAM серверних CPU детально описані в квітневій спеціальній статті про CPU. Коротко:

Співвідношення CPU та GPU в кластерах AI прискорювачів змінюється з традиційного 1:4 до 1:2, і може навіть наблизитися до 1:1.
В агентних потоках затримка CPU становить високу частку – 50-90%, що стає важливим вузьким місцем, тому потрібне синхронне розширення.
AI кодування значно підвищує ефективність SDE, кількість коду зростає на порядки, виклики програмних API зростають експоненціально, що безпосередньо призводить до експоненціального зростання годин CPU.
Sandbox для забезпечення безпеки та ізоляції даних, наприклад, Analytical Agent потребує копіювання великих баз даних та контексту користувача для кожного завдання, що призводить до серйозного марнування пам'яті (DRAM) та ядер CPU. Цю проблему марнування неможливо вирішити технічно протягом п'яти років або навіть довше. Крім того, години CPU технічно важко стиснути за допомогою оптимізації.

Саме тому два квартали тому AMD у звіті про прибутки заявила, що TAM CPU до 2030 року досягне 60 млрд. Два місяці тому AMD/ARM подвоїли прогноз TAM CPU до 2030 року до 120 млрд. Місяць тому Nvidia знову подвоїла прогноз TAM CPU до 2030 року до 200 млрд.

Минулого тижня Bernstein знову підвищив прогноз TAM CPU до 2030 року до 223 млрд. На мою думку, підвищення прогнозу TAM CPU до 400 млрд до 2031 року – це питання часу. Єдине питання – коли великі гравці оголосять про це підвищення.

Другий рівень: чому об'єм DRAM на одне ядро серверного CPU швидко зростає в епоху агентів?

Агенти – це довгострокові процеси зі станом, а не безстанові запити-відповіді.

Традиційний веб/SaaS є безстановим: запит надходить, виділяється пам'ять, обробляється, потім негайно звільняється. А завдання агента може тривати від хвилини до години. Протягом цього часу його історія повідомлень, системний промпт, робоча пам'ять, довгострокова пам'ять, буфер результатів інструментів – все постійно знаходиться в DRAM.

Як і години CPU, об'єм пам'яті кожного завдання через вимоги стану та ізоляції sandbox (кожне завдання копіює бази даних і контекст) технічно важко стиснути.

Контекстне вікно експоненціально зростає, робочий набір кожного сеансу розширюється. Кількість одночасних сеансів × об'єм пам'яті одного сеансу – мультиплікативне збільшення.

Context window зріс з 32K → 256K → 1M. Довжина послідовності під час reasoning/test-time compute вибухає. У майбутньому вона продовжить зростати. Кількість повідомлень, що постійно знаходяться в кожному активному сеансі, лінійно зростає з довжиною контексту.

Тепер перемножимо два рівні.

Перший рівень: TAM серверних CPU приблизно в 5-7 разів (60B → 120B → 200B → 223B, я вважаю, що буде 400B) до 2030-2031 років.

Другий рівень: об'єм DRAM на один CPU приблизно в 3-4 рази (4~8GB → 16~32 GB/core), але це зростання може бути в основному одноразовим дивідендом.

Перемноживши дві незалежні змінні, отримуємо, що попит на DRAM з боку серверів зростає на порядки.

До 2030 року, навіть за консервативним прогнозом TAM CPU в 300 млрд, при ціні одного ядра CPU в $50, в епоху агентів мінімально 16GB на ядро, додатковий об'єм становить щонайменше 96EB. Загальний об'єм виробництва DRAM цього року – лише 47EB, наступного року ледве 60EB. Це вражаючий приріст.

Хоча це експоненціальне зростання DRAM, спричинене агентними CPU, на другому рівні значною мірою є одноразовим дивідендом, воно триватиме дуже довго, тому що розрив величезний.

Повернемося до рамки на початку статті. З трьох умов позбавлення традиційного циклу, перша – кастомізація DRAM – майже не враховується.

Друга умова: структурне експоненціальне джерело попиту, яке важко змінити, є. Тепер commodity DRAM також частково має право позбутися традиційної циклічності. Не так повністю, як HBM (дві з половиною умови), але це вже суттєва зміна.

Третя умова: швидкість технологічного оновлення. Темп DRAM також змінився.

Раніше темп технологічного оновлення DRAM сильно залежав від споживчої електроніки. Прогрес DDR майже не впливав на продуктивність. Але в найближчому майбутньому використання традиційної DRAM у вуглецевій споживчій електроніці буде значно меншим, ніж використання в кремнієвій споживчій електроніці (серверні CPU).

Раніше гранична корисність оновлення швидкості DRAM була дуже низькою, але тепер через зростання попиту на пам'ять з боку серверних CPU та вимоги до швидкості DDR на кінцевих пристроях AI (наприклад, Apple для запуску локальних великих моделей потребує все швидшої LPDDR).

Гранична корисність оновлення швидкості значно зросла. Тому вимоги до швидкості оновлення DDR6 та LPDDR6 стали набагато вищими. Як видно на графіку, час між поколіннями LPDDR6/DDR6 скоротився, а нахил швидкості знову зростає.

Раніше, коли з'являлося нове покоління DDR/LPDDR, реакція була прохолодною – чекали зниження цін, перш ніж використовувати.

Тепер, коли LPDDR6 виходить, всі прагнуть якомога раніше його отримати, тому що підвищення швидкості дає відчутний приріст продуктивності.

Крім того, на пропозицію DDR додатково впливає «податок» HBM. Розширення HBM відбувається надто швидко, тому щороку частина пластин, призначених для commodity DDR, перенаправляється на HBM. Коефіцієнт конверсії надзвичайно низький: для HBM3E потрібно приблизно 3 пластини DDR, щоб отримати еквівалентний об'єм бітів, а для HBM4 – 4 пластини. Тому щорічно приблизно 3% до 5% зростання бітів DDR поглинається цим «податком HBM».

Таким чином, хоча щорічний приріст бітового об'єму DRAM у майбутньому становитиме близько 24% (14% від зростання пластин, 9% від зростання щільності DRAM на пластину), після врахування податку HBM традиційний, не HBM commodity DDR матиме щорічний приріст бітів лише близько 20% (приблизно 10% зростання пластин × приблизно 9% підвищення щільності вузла).

Який вплив матиме розширення виробництва китайської ChangXin? Якщо вона неетично різко нарощуватиме виробництво, чи поверне це ринок у циклічне болото?

Останніми роками ChangXin нарощує виробництво досить швидко. У 2025 році – 200 000 пластин на місяць, у 2026 році завдяки новій лінії в Пекіні – 320 000-350 000.

Завод у Шанхаї (перша та друга черги) будується. Перша черга, очікується, додасть 100 000 пластин на місяць до 2027 року, друга – ще 100 000 до 2028 року. Тобто у 2027 році – 420 000 пластин на місяць, у 2028 році – 500 000.

Однак слід зазначити, що щільність DRAM бітів у ChangXin приблизно вдвічі менша, ніж у трьох основних гравців. Тому 500 000 пластин ChangXin дають лише половину об'єму бітів. Тому при розрахунку пластин на місяць враховуємо половину.

Після врахування цього дисконту вплив ChangXin на всю індустрію DRAM значно менший. З кінця 2025 року до кінця 2028 року вплив ChangXin на CAGR бітового об'єму DRAM становить лише близько 1.5%. CAGR бітового об'єму всієї галузі зросте приблизно з 12.7% до 14.2%.

· DRAM місячна потужність (kwspm) 2025E → 2028E CAGR · Samsung 685K → 920K 10.3% · SK Hynix 519K → 725K 11.8% · Micron 340K → 560K 18.1% · Інші некитайські 150K → 218K 13.3% · Китай (щільність вдвічі менша) 117K → 274K 32.8% · Всього з Китаєм 1811K → 2697K 14.2% · Без Китаю 1694K → 2423K 12.7%

Навіть якщо ChangXin продовжить нарощувати виробництво такими темпами, до 2030 року вплив на щорічний CAGR бітового об'єму всієї галузі становитиме менше 3%, з 20% CAGR до 23% CAGR.

Крім того, ChangXin обмежена літографічним обладнанням, а DDR6 потребує вищих швидкостей (від 14400 MT/s) та більшої щільності. Три основні гравці, ймовірно, використовуватимуть для DDR6 вузол 1c або більш просунуті (<12 нм) з EUV. ChangXin може мати обмеження за швидкістю DDR6, а щільність вдвічі менша.

Навіть при циклічності зростання, чому цей суперцикл DRAM триватиме довго, принаймні п'ять років?

Перша причина – величезне зростання попиту з боку серверних CPU, як обговорювалося вище, що призводить до структурного експоненціального зростання попиту на DRAM. Якщо поєднати це з CAGR бітового об'єму пропозиції DRAM приблизно 20%, стає зрозуміло, чому розрив у DRAM зростає:

Пропозиція традиційної (не HBM) DRAM зростає приблизно на 20% на рік. Попит – при TAM CPU 60 млрд у 2026 році, кожен CPU споживає в середньому 8GB/core, ціна ядра $30-35 – попит становить 16EB.

У 2030 році при TAM CPU 400 млрд, кожен CPU споживає в середньому 16GB/core, ціна ядра $80 (ціна CPU зросла більш ніж удвічі) – попит становить 80EB. CAGR зростання цієї частини DRAM становить приблизно 50%, що значно перевищує поточні оцінки.

На відміну від HBM, яка безпосередньо пов'язана з пропускною здатністю токенів і, отже, з ефективністю заробітку GPU, недостатня кількість DRAM впливає на швидкість агентних потоків. Наприклад, 8GB/core проти 16GB/core може знизити швидкість деяких робочих навантажень на 30%. Деякі низькоцінні завдання можуть почекати. Стимул структурного експоненціального зростання сильний, але попит не такий жорсткий, як у GPU.

Semianalysis стверджує, що цього року дефіцит DRAM становить однозначні відсотки, наступного року – понад 10%. З огляду на структурне зростання DRAM через різке збільшення кількості агентних CPU, цей розрив щороку збільшуватиметься і не зменшиться до 2030 року.

Інша причина, чому DRAM зможе довго зберігати сильні позиції: попит, знищений підвищенням цін, не зникає, а лише відкладається. Резервуарів попиту дуже багато.

«Резервуар» означає потенційний попит, який негайно вивільниться, як тільки ціни на пам'ять впадуть. Це означає, що навіть якщо пропозиція тимчасово наздожене попит, ціни не обваляться, тому що з резервуару завжди з'явиться новий попит:

Пам'ять / обчислювальна потужність як резервуар:

Існує величезний попит, який потребує додаткової пам'яті для оптимізації швидкості та обчислень. Коли пам'ять надто дорога, цей попит стримується. Як тільки пам'ять дешевшає, він вивільняється.

Наприклад, прискорювач prefill CPX від Nvidia спочатку був задуманий як спеціальний прискорювач prefill з використанням додаткової дешевої GDDR7. Але LPDDR/GDDR стали надто дорогими – дорожчими за HBM до подорожчання. ROI цього рішення став невигідним. Але коли звичайна пам'ять подешевшає, такі оптимізаційні рішення, як CPX, повернуться.

Низькоцінні завдання як резервуар: Коли ціни на пам'ять зростають, а ціна токенів залишається високою, високоцінні завдання виконуються в першу чергу, а низькоцінні відкладаються. Коли пам'ять дешевшає, відкладений попит повертається.

Кінцеві AI-пристрої як резервуар: Конфігурація пам'яті AI PC може зрости з 24GB до 128GB. Apple вже чітко вимагає оновлення пам'яті з 8GB до 12GB для нових версій AI на пристроях.

Попит, знижений через подорожчання пам'яті для звичайної споживчої електроніки, Agent PC, дешевих телефонів – все це резервуари.

Поєднання такої кількості резервуарів створює надзвичайно товсту подушку попиту. Ось чому структурне зростання DDR у цьому циклі матиме більший запас, ніж очікує ринок.

Ще одна причина, чому ціни на DRAM навряд чи значно впадуть: потужності HBM і DRAM можуть бути взаємозамінними, тому весь комплекс DRAM переоцінюється разом.

Під час висхідного періоду маржа DRAM значно перевищує маржу HBM. Зростання цін на HBM навіть стимулюється DRAM. Ціна нового контракту на HBM4 цього року становить поточну ціну DRAM × 4, що відповідає нормальній кратності стеків HBM4.

Якщо DRAM подешевшає і маржа знизиться, через прозорість довгострокових контрактів HBM, маржа HBM залишиться захищеною. HBM опосередковано відтягне більше потужностей DRAM. Зниження цін на HBM також стимулюватиме виробників GPU до максимального збільшення розміру HBM, що опосередковано підтримує цінову підлогу DRAM.

Таким чином, структурний експоненціальний попит на DRAM існує, уповільнення масштабування щільності ускладнює розширення, плани розширення виробників обережні, вплив ChangXin обмежений, а резервуари попиту величезні. Ці чотири причини призводять до того, що в найближчі п'ять років або навіть довше DRAM навряд чи увійде в циклічний спад.

Чи є надія, що NAND SSD позбудеться традиційної циклічності?

Структурне зростання NAND не таке сильне, як у DDR. Основний дефіцит цього року пов'язаний з хорошою виробничою дисципліною кількох ключових гравців, які не масштабували виробництво. Щорічний приріст потужностей в основному завдяки технологічним удосконаленням: збільшенню кількості шарів стеку NAND.

Перше структурне зростання походить від AI, головним чином через вивантаження KV cache: вивантаження теплого/холодного KV cache з HBM на NAND SSD.

Але дивно, що це вивантаження KV cache ще навіть не почалося масово, а SSD вже дефіцитніші, ніж DRAM, і подорожчали більше. Коли наступного року Rubin CMX вийде на повну потужність, а вивантаження KV cache почне масово застосовуватися, дефіцит SSD структурно зросте.

Друге джерело – структурна складова AI відео, про яку згадувалося в минулорічному підсумку. Цього року вона вже набула популярності.

Об'єм Seedance зростає в 10-40 разів на рік. Зараз він все ще обмежений нестачею обчислювальних потужностей (карток). Попит стримується нестачею. Але коли період дефіциту карток мине, структурне зростання попиту на NAND зберігання для AI відео триватиме досить довго.

Третє структурне зростання також походить від експоненціального збільшення використання Sandbox через агентні потоки. Sandbox для забезпечення безпеки та ізоляції даних, наприклад, Analytical Agent потребує копіювання великих баз даних і контексту користувача для кожного завдання, що призводить до серйозного марнування пам'яті (DRAM) і ядер CPU, а також до великого марнування SSD.

Четверте можливе структурне зростання, яке може стати актуальним після 2030 року, пов'язане з використанням SSD в архітектурі HBF. Цей технологічний напрямок покладає великі надії в деяких інвестиційних банках. Але він ще далекий. Основна роль HBF – зберігати ваги великої моделі, записати ваги один раз і використовувати лише для читання. Він повинен бути запакований разом з GPU/HBM (48TBps/96TBps), інакше швидкість PCIE7/8 надто низька. Це лише перспектива. У наступній статті «AI Semiconductor Endgame 2026(III)» буде більш детальний аналіз.

Загалом, структурне зростання NAND SSD не таке сильне, як у HBM, але воно виграє в дешевизні. До 2027 року ціна складе лише $0.8/GB, що в 40 разів менше, ніж у DRAM. Тому NAND SSD можна вважати універсальним компонентом у багаторівневій кеш-пам'яті, джерел структурного зростання дуже багато.

Іншими словами, не може бути так, що DRAM/HBM дорожчають окремо, а SSD ні. Якщо так станеться, всі намагатимуться використовувати SSD для виконання частини функцій DRAM/HBM, досягаючи аналогічного ефекту з меншими витратами. HBM, DRAM, NAND – це не три окремі історії, а структурне зростання однієї AI memory hierarchy на різних температурних рівнях.

Структурне експоненціальне зростання попиту є. Чи позбавиться NAND SSD циклічності? Тоді потрібно дивитися на виробничу дисципліну виробників NAND SSD. Єдиний, хто може порушити дисципліну – це Yangtze Memory Technologies. Це дилема ув'язненого: якщо один гравець неетично різко нарощує виробництво, розширення для всієї індустрії NAND набагато простіше, ніж для DRAM.

Але як мінімум, цей цикл NAND також є суперциклом. Попит, створений кількома структурними експоненціальними зростаннями, дозволить відкласти спад щонайменше до 2030 року.

> Оригінальне посилання

Натисніть, щоб дізнатися про вакансії в BlockBeats

Ласкаво просимо до офіційних спільнот BlockBeats:

Telegram підписка: https://t.me/theblockbeats

Telegram спільнота: https://t.me/BlockBeats_App

Twitter офіційний акаунт: https://twitter.com/BlockBeatsAsia

Переглянути оригінал

Прогнозування кінцевої гри напівпровідників ШІ: дефіцит триватиме щонайменше п'ять років?

А як щодо DRAM? Чи можливо в майбутньому позбутися традиційної циклічності?

Перемноживши дві незалежні змінні, отримуємо, що попит на DRAM з боку серверів зростає на порядки.

Навіть при циклічності зростання, чому цей суперцикл DRAM триватиме довго, принаймні п'ять років?

Чи є надія, що NAND SSD позбудеться традиційної циклічності?

Популярні теми

SKHynixTopsKOSPIByMarketCap

MicronEarningsBeatExpectationsSharesRise

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

USMayPCEInflationRisesTo4.1%HighestIn3Years

Закріплено