據相關數據披露，隨著AI訓練與推理對高頻寬記憶體的需求爆發，HBM在DRAM晶圓產能中的佔比已從2020年的2%攀升至2026年預估的25%。三星、SK海力士、美光三大原廠紛紛將優質產能向高毛利的HBM傾斜，2025至2027年HBM投片量佔整體DRAM投片量的比例分別為18%、22%和約30%。一片HBM晶圓要消耗約三片DDR5的產能，三大原廠主動削減手機、PC的低毛利訂單，把產能全力倒向AI。再考慮到超大規模雲廠商又以多年期長單提前鎖定未來晶圓產出，進一步壓縮了面向伺服器領域的標準DRAM供給。

而供給端的剛性，決定了短缺難以在短期內緩解。

先進DRAM製程高度依賴EUV光刻機，單台設備售價高達約2億美元，一座現代化晶圓廠的投資動輒數百億美元，即便一切順利，建設周期也長達數年。產能擴張的速度，遠遠追不上AI需求增長的腳步。

傑富瑞預計，若不计入國產廠商影響，2026年全球存儲bit供給增長僅為7%至8%。DRAM與NAND合計可能出現約15萬至20萬片/月的供給缺口。美光科技在2026第三財季財報中表示，即使行業供應可能在2028年逐步改善，目前仍難以判斷存儲供給何時能夠追上持續增長的需求。

此外，壓力早已從數據中心蔓延至消費端。

Xbox首席執行官Asha Sharma公開表示，過去兩年間記憶體成本上漲了約五倍，直接導致公司無法生產足夠數量的遊戲主機來滿足市場需求。蘋果也宣布相繼對iPhone、Mac、iPad等產品進行漲價。

摩根士丹利分析師Shawn Kim團隊更是直言，記憶體價格飆升與供應稀缺正演變為數位經濟的全面風險，「從AI基礎設施的瓶頸，蔓延至硬體利潤率、設備可負擔性、雲成本、通膨乃至政策層面」。

在伺服器物料清單中，DRAM的佔比變化更能說明問題。2023年，DRAM約佔伺服器整機成本的50%；到2026年年中，這一比例已攀升至60%至90%，平均約75%。CPU的價格並沒有下降，但在記憶體價格飛漲的映襯下，CPU的漲價幅度顯得微不足道。

更諷刺的是，花了大價錢採購的記憶體，實際利用率並不高——Meta等超大規模廠商的實測數據顯示，數據中心的記憶體普遍僅有約一半容量承載著活躍的「熱數據」，大量冷數據長期佔據著昂貴的DRAM資源。

面對DRAM的昂貴與稀缺，行業玩家開始另闢蹊徑——不再單純堆硬體，而是用技術手段減少對DRAM的依賴。

AMD：AI預測調度，讓快閃記憶體「隱身」成記憶體

AMD選擇了最輕量的軟體切入路徑。

2026年6月，AMD宣布收購記憶體優化廠商MEXT，其核心目標就是引入通過AI驅動的記憶體分層技術，將冷數據從高價DRAM下沉到低成本NAND快閃記憶體，實現有效記憶體容量的低成本擴張。

據悉，MEXT成立於2023年，創始團隊大有來頭——聯合創始人兼CEO Gary Smerdon曾是Fusion-io的首席戰略和產品官，將快閃記憶體儲存大規模商業化的先行者，十多年前，蘋果和Meta Platforms都是其主要客戶。

MEXT針對記憶體效率瓶頸，推出了一項基於AI的分層記憶體(memory tiering)技術。這項技術能將低頻率訪問的數據，從昂貴的DRAM移轉至每單位容量成本遠低的NAND型快閃記憶體，且不影響應用程式運作。

MEXT的核心產品是預測記憶體引擎(Predictive Memory Engine)，一套完全基於軟體的記憶體分層方案：它以記憶體頁為粒度持續監測應用的訪問模式，自動將低頻訪問的冷數據遷移到NAND快閃記憶體中——快閃記憶體每比特成本僅約為DRAM的1/55；同時通過AI模型學習工作負載的訪問規律，預測即將被調用的數據頁，在應用發起請求前就主動將其預取回到DRAM，讓軟體能夠像直接訪問主記憶體般讀取數據，進而確保效能不受影響。

圖源：Nextplat

整套機制對作業系統和上層應用完全透明，無需修改任何業務程式碼，也不需要新增專用硬體，數分鐘即可完成部署。

官方數據顯示，該方案可將系統有效記憶體容量提升2至4倍，基礎設施整體成本下降約50%。在Neo4j圖數據庫、EDA仿真、影視渲染等典型場景中，DRAM與快閃記憶體1:1配比的配置，可達到純DRAM配置約95%的吞吐量，成本卻大幅降低。

MEXT之前針對戴爾伺服器以及AWS雲實例進行了對比測試：

戴爾電腦/AWS配備和未配備MEXT擴展記憶體的對比圖（圖源：Nextplat）

已經在使用MEXT記憶體擴展時，記憶體和快閃記憶體比例為1:1和1:3時Neo4j圖數據庫的性能和性價比：

圖源：Nextplat

MEXT的思路雖說不是革命性的——記憶體分層、把冷數據遷到更便宜的存儲介質上，這些概念其實都已經存在了相當長的時間。但以往的技術沒能在數據中心大規模落地，關鍵就在於預測算法的準確度不夠。一旦預判失準，程式在需要數據時才從快閃記憶體搬回DRAM，延遲就會直接暴露，性能損失根本無法接受。

MEXT的突破在於用AI模型來幹這件事。它的預測記憶體引擎持續分析記憶體訪問模式，通過AI判斷哪些數據頁接下來最有可能被用到，然後在應用程式真正發起請求之前，就主動把數據從快閃記憶體遷回到DRAM。

對AMD而言，這筆收購補上了自身全棧能力的關鍵一塊。在EPYC CPU、Instinct GPU與ROCm軟體棧之外，MEXT帶來的記憶體效率層，讓AMD能夠為客戶提供從晶片到數據流調度的完整解決方案，既幫助客戶降低總擁有成本、減少GPU「等數據」的閒置，也強化了自身在AI基礎設施市場的競爭力。

收購消息公布當日，AMD股價盤中上漲近7%，市場用投票表達了對這一路徑的認可。

當然也得說一句，MEXT的技術最終能在AMD的數據中心產品中落地到什麼程度，還有待時間來檢驗。NAND快閃記憶體和DRAM在延遲上的物理差異是客觀存在的，僅靠軟體層面的AI預測能否真正彌合這道鴻溝，還需要看大規模部署後的實際表現。

Apple：端側大模型，把模型「存進」快閃記憶體

當數據中心在為DRAM成本頭疼，消費端也面臨著同樣的約束——手機等終端的DRAM容量極為有限，卻要承載端側大模型的推理需求。蘋果給出的答案，是讓大模型常駐快閃記憶體，按需加載到記憶體。

蘋果最新的AFM 3 Core Advanced是一款200億參數的端側大模型，若按傳統方式全部加載到DRAM，遠超消費級設備的記憶體上限。蘋果通過稀疏激活架構破解了這一難題：完整模型全部存放在NAND快閃記憶體中，推理時不加載全部權重，而是根據輸入提示詞一次性選定本次推理所需的專家模組，僅將10億到40億參數的工作集調入DRAM。

AFM 3 Core Advanced模型架構示意圖

與傳統MoE模型逐Token切換專家、導致頻繁數據搬運不同，蘋果採用按提示詞粒度的路由機制，配合高比例常駐DRAM的共享專家，大幅減少了快閃記憶體與記憶體之間的交換次數，將加載延遲降到最低。再結合指令級剪枝（IFP）、Transformer層精簡等優化，最終將200億參數模型的DRAM峰值佔用控制在2GB至8GB區間，進一步平衡了記憶體佔用與計算效率，有效解決了MoE在端側部署時DRAM佔用過大的問題，使其能夠在iPhone等終端設備上流暢運行，實現了「大模型小記憶體」的端側推理。

這套架構並非臨時攻關的產物。

實際上，早在2024年，蘋果研究團隊就發表了《LLM in a Flash》論文，系統驗證了將大模型參數存放於快閃記憶體、按需調度的技術路徑，在降低雲端運算成本的同時，為端側AI應用提供可行的記憶體架構支撐，可在CPU和GPU上分別實現比樸素加載快4至5倍和20至25倍的推理速度。

當DRAM漲價從產業端傳導至消費電子，這套方案既支撐了端側AI的體驗，也降低了設備對大容量DRAM的依賴。

綜合來看，AMD和Apple的兩大路徑分別針對數據中心與端側同步演進，但共同指向同一結論：AI推理的記憶體層級正在重構，低頻KV快取、模型權重及端側數據，將逐步從高價的HBM/DRAM下沉至NAND Flash/SSD層，形成多層次存儲架構。

這一架構轉變正沿產業鏈形成多層次的傳導效應。據Citrini Research梳理，最直接的受益層是NAND原廠。

Marvell：硬體壓縮+CXL，給物理記憶體擴容

如果說AMD和蘋果走的是軟體和架構優化的路線，Marvell則選擇了硬體層面的突破，依托CXL高速互連協議，用硬體內聯壓縮技術直接提升物理DRAM的等效容量。

2026年6月，Marvell發布Structera系列CXL控制器——Structera X（記憶體擴展控制器）和Structera A（近記憶體加速器）。兩款晶片都內置了自研的CDB（Compression-Decompression Block）硬體壓縮模組。

據了解，數據寫入DRAM時，CDB模組會通過定制化LZ4無損算法實時壓縮；讀取時則同步完成解壓。整個過程在記憶體鏈路中獨立完成，不佔用主機CPU算力，也對上層應用完全透明。根據數據類型不同，1GB物理DRAM可發揮2至3.64倍的等效邏輯容量——在混合數據庫業務場景下，平均壓縮比可達3.64:1，相當於用不到三分之一的物理記憶體滿足同等業務需求。

除此之外，這套方案還有兩重降本價值：一是舊記憶體復用，Structera X控制器支援DDR4記憶體接入，可將退役的DDR4記憶體納入CXL記憶體池，減少對昂貴DDR5的新增採購；二是記憶體池化，通過CXL協議打破單CPU對記憶體的獨占限制，讓多台伺服器共享記憶體資源，消化系統中的閒置容量。

按當前DDR5每GB 27至37美元的現貨價計算，一個12TB的記憶體池僅DRAM硬體成本就接近50萬美元；若按3倍壓縮比估算，物理DRAM採購量可縮減三分之二，單池就能節省三十餘萬美元。

閃迪：把NAND塞到GPU下面

Sandisk（閃迪）的解法更加激進——從封裝層面重構AI晶片的記憶體架構。

閃迪正聯合SK海力士推動高頻寬快閃記憶體（HBF）標準化，試圖讓NAND快閃記憶體進一步靠近計算核心，打造HBM與SSD之間的全新存儲層級。

閃迪的專利方案提出了「GPU下的NAND」架構：將高容量NAND快閃記憶體堆疊在GPU或AI加速器的正下方，周圍環繞HBM堆疊，通過大幅縮短數據傳輸距離，提升快閃記憶體的訪問頻寬。按照規劃，HBF將與HBM4物理相容，容量可達同體積HBM的8至16倍，成本則具備顯著優勢，主打長上下文推理、KV快取、模型權重串流加載等讀取密集型場景。

這種被稱作HBF（High Bandwidth Flash，高頻寬快閃記憶體）的技術，定位在HBM和SSD之間。如果把HBM比作攤在桌面上的「參考書」，那基於NAND的HBF就是放在GPU旁邊的「書櫃」。HBM處理必須立即響應的數據，而GPU下方的NAND存儲更大的數據並進行反覆讀寫。

閃迪的目標是開發頻寬接近HBM的HBF，以類似成本提供8到16倍HBM的容量。2026年2月，閃迪與SK海力士正式啟動了HBF規範標準化聯盟。SK海力士貢獻其在HBM中積累的堆疊、封裝與中介層技術，閃迪則帶來NAND和快閃記憶體設計的能力。雙方計劃在2026年下半年推出首批HBF樣品，2027年初應用於AI推理設備。目標是構建三級記憶體架構：HBM負責超低延遲的即時計算，HBF承接大容量、高吞吐的反覆讀取數據，SSD則承載冷存儲，各層級各司其職。

當然，HBF走向大規模商業化仍需跨越多重關卡。計算晶片與NAND堆疊帶來的高熱密度、混合鍵合與複雜布線的良率挑戰、以及冷熱數據分層調度的軟體生態，都需要時間逐步打磨。

據韓國新榮證券預計，HBF市場有望在2027年形成，到2030年增長至120億美元的規模。

對動輒數萬節點的雲廠商而言，這意味著巨額的資本開支優化。目前Structera已是業內首款量產的搭載硬體內聯壓縮的CXL控制器，相關技術方案已提交OCP開放計算項目標準化，未來適配範圍將進一步擴大。

前車之鑑：3D XPoint的未竟之路

說起來，用快閃記憶體來擴展主記憶體並非新鮮事。

早在2015年，英特爾與美光就聯合推出了3D XPoint存儲技術，其願景恰好命中了今天的行業痛點——打造一種性能介於DRAM和NAND快閃記憶體之間、支援字節尋址、成本接近快閃記憶體的新型存儲介質，在記憶體與傳統存儲之間構建一個新的層級。

遺憾的是，3D XPoint最終沒能兌現最初的承諾。

製程研發的滯後讓它的成本一路追平DRAM，性能卻僅比普通快閃記憶體快數倍；加之英特爾將其綁定自家Xeon處理器的封閉策略，使其始終無法進入主流市場。最終項目終止，英特爾的快閃記憶體業務也被出售給SK海力士，這項曾被寄予厚望的技術，成了存儲行業一段令人唏噓的註腳。

如果英特爾當初沒有放棄3D XPoint，如今的利潤該有多豐厚？可惜歷史沒有如果。

此外，國內一些做存算一體、記憶體池化解決方案的初創公司，接下來估計也會受到更多關注。畢竟在DRAM價格高企、供給側又被擠佔的大背景下，誰能拿出一套真正靠譜的記憶體優化方案，誰就可能在資本市場上拿到下一輪入場券。

寫在最後

從3D XPoint的折戟到今天多種路徑並行，存儲行業對記憶體效率的探索從未止步。

AMD用AI預測來調度冷熱數據、Apple用稀疏激活和快閃記憶體存儲來壓縮端側記憶體佔用、Marvell用硬體壓縮讓物理記憶體發揮更大效用、閃迪用3D堆疊把NAND搬到GPU腳下——四家公司的技術路徑各不相同，但指向同一個方向：AI推理的記憶體層級正在重構——熱數據留在DRAM與HBM中保障性能，溫冷數據逐步下沉到快閃記憶體層承接容量，多層介質協同平衡性能與成本。

DRAM的昂貴，正在把整個行業「逼上了梁山」。但正是這種壓力，催生出了一系列令人眼前一亮的技術創新。

不可否認，快閃記憶體與DRAM在延遲上的物理鴻溝始終存在，各類方案的實際表現仍需大規模部署的驗證。但可以確定的是，單純堆砌DRAM來解決問題的時代正在過去，更高效、更分層的記憶體體系，已是行業前行的新方向。

本文來源：半導體行業觀察

風險提示及免責條款

        市場有風險，投資需謹慎。本文不構成個人投資建議，也未考慮到個別用戶特殊的投資目標、財務狀況或需要。用戶應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資，責任自負。

DRAM1.31%

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

打賞
按讚
回覆
轉發
分享

回覆

請輸入回覆內容

暫無回覆

熱門話題
查看更多
#
gStocks代幣化股票上線
481.95萬熱度
#
非農爆冷打壓加息預期
107.4萬熱度
#
預測世界盃巴西VS挪威
23.44萬熱度
#
ETH突破1700
1.52億熱度
#
Meta賣算力引發存儲股大跌
141.41萬熱度

已置頂

天下苦DRAM久矣

DRAM危機，全面爆發

AMD：AI預測調度，讓快閃記憶體「隱身」成記憶體

Apple：端側大模型，把模型「存進」快閃記憶體

Marvell：硬體壓縮+CXL，給物理記憶體擴容

閃迪：把NAND塞到GPU下面

前車之鑑：3D XPoint的未竟之路

寫在最後

熱門話題

gStocks代幣化股票上線

非農爆冷打壓加息預期

預測世界盃巴西VS挪威

ETH突破1700

Meta賣算力引發存儲股大跌

已置頂