天下苦DRAM久矣

當前,數據中心正面臨一場新危機——不是算力不夠,而是記憶體太貴。

近年來,隨著大模型推理、記憶體資料庫、高效能運算等AI業務的規模化快速擴張,正在將數據中心推向記憶體資源的臨界點。曾經作為伺服器標準配備的DRAM,如今已成了最昂貴、最稀缺的基礎設施資源,價格暴漲與供給剛性,成為制約著AI算力部署節奏的關鍵因素。

根據Counterpoint Research的追蹤數據顯示,64GB DIMM記憶體的價格在2025年第三季度到2026年第一季度之間已上漲3.5倍,且漲勢尚未見頂——預計到2026年第三季度,累計漲幅將達到5倍。

TrendForce的數據更加直觀:2026年第一季度DRAM合約價季增幅度高達93%至98%,帶動全球DRAM產業整體營收环比增長81%,達到970億美元。進入第二季度,漲勢仍未停歇,合約價預計再漲58%至63%。

現貨市場的信號更為直觀:當前伺服器級DDR5 RDIMM的現貨單價區間達每GB 27至37美元,僅搭建一個12TB的記憶體池,純DRAM硬體採購成本就接近50萬美元。

DRAM危機,全面爆發

這輪漲價風暴的根源,在於HBM對DRAM產能的持續蠶食。

據相關數據披露,隨著AI訓練與推理對高頻寬記憶體的需求爆發,HBM在DRAM晶圓產能中的佔比已從2020年的2%攀升至2026年預估的25%。三星、SK海力士、美光三大原廠紛紛將優質產能向高毛利的HBM傾斜,2025至2027年HBM投片量佔整體DRAM投片量的比例分別為18%、22%和約30%。一片HBM晶圓要消耗約三片DDR5的產能,三大原廠主動削減手機、PC的低毛利訂單,把產能全力倒向AI。再考慮到超大規模雲廠商又以多年期長單提前鎖定未來晶圓產出,進一步壓縮了面向伺服器領域的標準DRAM供給。

而供給端的剛性,決定了短缺難以在短期內緩解。

先進DRAM製程高度依賴EUV光刻機,單台設備售價高達約2億美元,一座現代化晶圓廠的投資動輒數百億美元,即便一切順利,建設周期也長達數年。產能擴張的速度,遠遠追不上AI需求增長的腳步。

傑富瑞預計,若不计入國產廠商影響,2026年全球存儲bit供給增長僅為7%至8%。DRAM與NAND合計可能出現約15萬至20萬片/月的供給缺口。美光科技在2026第三財季財報中表示,即使行業供應可能在2028年逐步改善,目前仍難以判斷存儲供給何時能夠追上持續增長的需求。

此外,壓力早已從數據中心蔓延至消費端。

Xbox首席執行官Asha Sharma公開表示,過去兩年間記憶體成本上漲了約五倍,直接導致公司無法生產足夠數量的遊戲主機來滿足市場需求。蘋果也宣布相繼對iPhone、Mac、iPad等產品進行漲價。

摩根士丹利分析師Shawn Kim團隊更是直言,記憶體價格飆升與供應稀缺正演變為數位經濟的全面風險,「從AI基礎設施的瓶頸,蔓延至硬體利潤率、設備可負擔性、雲成本、通膨乃至政策層面」。

在伺服器物料清單中,DRAM的佔比變化更能說明問題。2023年,DRAM約佔伺服器整機成本的50%;到2026年年中,這一比例已攀升至60%至90%,平均約75%。CPU的價格並沒有下降,但在記憶體價格飛漲的映襯下,CPU的漲價幅度顯得微不足道。

更諷刺的是,花了大價錢採購的記憶體,實際利用率並不高——Meta等超大規模廠商的實測數據顯示,數據中心的記憶體普遍僅有約一半容量承載著活躍的「熱數據」,大量冷數據長期佔據著昂貴的DRAM資源。

面對DRAM的昂貴與稀缺,行業玩家開始另闢蹊徑——不再單純堆硬體,而是用技術手段減少對DRAM的依賴。

AMD:AI預測調度,讓快閃記憶體「隱身」成記憶體

AMD選擇了最輕量的軟體切入路徑。

2026年6月,AMD宣布收購記憶體優化廠商MEXT,其核心目標就是引入通過AI驅動的記憶體分層技術,將冷數據從高價DRAM下沉到低成本NAND快閃記憶體,實現有效記憶體容量的低成本擴張。

據悉,MEXT成立於2023年,創始團隊大有來頭——聯合創始人兼CEO Gary Smerdon曾是Fusion-io的首席戰略和產品官,將快閃記憶體儲存大規模商業化的先行者,十多年前,蘋果和Meta Platforms都是其主要客戶。

MEXT針對記憶體效率瓶頸,推出了一項基於AI的分層記憶體(memory tiering)技術。這項技術能將低頻率訪問的數據,從昂貴的DRAM移轉至每單位容量成本遠低的NAND型快閃記憶體,且不影響應用程式運作。

MEXT的核心產品是預測記憶體引擎(Predictive Memory Engine),一套完全基於軟體的記憶體分層方案:它以記憶體頁為粒度持續監測應用的訪問模式,自動將低頻訪問的冷數據遷移到NAND快閃記憶體中——快閃記憶體每比特成本僅約為DRAM的1/55;同時通過AI模型學習工作負載的訪問規律,預測即將被調用的數據頁,在應用發起請求前就主動將其預取回到DRAM,讓軟體能夠像直接訪問主記憶體般讀取數據,進而確保效能不受影響。

圖源:Nextplat

整套機制對作業系統和上層應用完全透明,無需修改任何業務程式碼,也不需要新增專用硬體,數分鐘即可完成部署。

官方數據顯示,該方案可將系統有效記憶體容量提升2至4倍,基礎設施整體成本下降約50%。在Neo4j圖數據庫、EDA仿真、影視渲染等典型場景中,DRAM與快閃記憶體1:1配比的配置,可達到純DRAM配置約95%的吞吐量,成本卻大幅降低。

MEXT之前針對戴爾伺服器以及AWS雲實例進行了對比測試:

戴爾電腦/AWS配備和未配備MEXT擴展記憶體的對比圖(圖源:Nextplat)

已經在使用MEXT記憶體擴展時,記憶體和快閃記憶體比例為1:1和1:3時Neo4j圖數據庫的性能和性價比:

圖源:Nextplat

MEXT的思路雖說不是革命性的——記憶體分層、把冷數據遷到更便宜的存儲介質上,這些概念其實都已經存在了相當長的時間。但以往的技術沒能在數據中心大規模落地,關鍵就在於預測算法的準確度不夠。一旦預判失準,程式在需要數據時才從快閃記憶體搬回DRAM,延遲就會直接暴露,性能損失根本無法接受。

MEXT的突破在於用AI模型來幹這件事。它的預測記憶體引擎持續分析記憶體訪問模式,通過AI判斷哪些數據頁接下來最有可能被用到,然後在應用程式真正發起請求之前,就主動把數據從快閃記憶體遷回到DRAM。

對AMD而言,這筆收購補上了自身全棧能力的關鍵一塊。在EPYC CPU、Instinct GPU與ROCm軟體棧之外,MEXT帶來的記憶體效率層,讓AMD能夠為客戶提供從晶片到數據流調度的完整解決方案,既幫助客戶降低總擁有成本、減少GPU「等數據」的閒置,也強化了自身在AI基礎設施市場的競爭力。

收購消息公布當日,AMD股價盤中上漲近7%,市場用投票表達了對這一路徑的認可。

當然也得說一句,MEXT的技術最終能在AMD的數據中心產品中落地到什麼程度,還有待時間來檢驗。NAND快閃記憶體和DRAM在延遲上的物理差異是客觀存在的,僅靠軟體層面的AI預測能否真正彌合這道鴻溝,還需要看大規模部署後的實際表現。

Apple:端側大模型,把模型「存進」快閃記憶體

當數據中心在為DRAM成本頭疼,消費端也面臨著同樣的約束——手機等終端的DRAM容量極為有限,卻要承載端側大模型的推理需求。蘋果給出的答案,是讓大模型常駐快閃記憶體,按需加載到記憶體。

蘋果最新的AFM 3 Core Advanced是一款200億參數的端側大模型,若按傳統方式全部加載到DRAM,遠超消費級設備的記憶體上限。蘋果通過稀疏激活架構破解了這一難題:完整模型全部存放在NAND快閃記憶體中,推理時不加載全部權重,而是根據輸入提示詞一次性選定本次推理所需的專家模組,僅將10億到40億參數的工作集調入DRAM。

AFM 3 Core Advanced模型架構示意圖

與傳統MoE模型逐Token切換專家、導致頻繁數據搬運不同,蘋果採用按提示詞粒度的路由機制,配合高比例常駐DRAM的共享專家,大幅減少了快閃記憶體與記憶體之間的交換次數,將加載延遲降到最低。再結合指令級剪枝(IFP)、Transformer層精簡等優化,最終將200億參數模型的DRAM峰值佔用控制在2GB至8GB區間,進一步平衡了記憶體佔用與計算效率,有效解決了MoE在端側部署時DRAM佔用過大的問題,使其能夠在iPhone等終端設備上流暢運行,實現了「大模型小記憶體」的端側推理。

這套架構並非臨時攻關的產物。

實際上,早在2024年,蘋果研究團隊就發表了《LLM in a Flash》論文,系統驗證了將大模型參數存放於快閃記憶體、按需調度的技術路徑,在降低雲端運算成本的同時,為端側AI應用提供可行的記憶體架構支撐,可在CPU和GPU上分別實現比樸素加載快4至5倍和20至25倍的推理速度。

當DRAM漲價從產業端傳導至消費電子,這套方案既支撐了端側AI的體驗,也降低了設備對大容量DRAM的依賴。

綜合來看,AMD和Apple的兩大路徑分別針對數據中心與端側同步演進,但共同指向同一結論:AI推理的記憶體層級正在重構,低頻KV快取、模型權重及端側數據,將逐步從高價的HBM/DRAM下沉至NAND Flash/SSD層,形成多層次存儲架構。

這一架構轉變正沿產業鏈形成多層次的傳導效應。據Citrini Research梳理,最直接的受益層是NAND原廠。

Marvell:硬體壓縮+CXL,給物理記憶體擴容

如果說AMD和蘋果走的是軟體和架構優化的路線,Marvell則選擇了硬體層面的突破,依托CXL高速互連協議,用硬體內聯壓縮技術直接提升物理DRAM的等效容量。

2026年6月,Marvell發布Structera系列CXL控制器——Structera X(記憶體擴展控制器)和Structera A(近記憶體加速器)。兩款晶片都內置了自研的CDB(Compression-Decompression Block)硬體壓縮模組。

據了解,數據寫入DRAM時,CDB模組會通過定制化LZ4無損算法實時壓縮;讀取時則同步完成解壓。整個過程在記憶體鏈路中獨立完成,不佔用主機CPU算力,也對上層應用完全透明。根據數據類型不同,1GB物理DRAM可發揮2至3.64倍的等效邏輯容量——在混合數據庫業務場景下,平均壓縮比可達3.64:1,相當於用不到三分之一的物理記憶體滿足同等業務需求。

除此之外,這套方案還有兩重降本價值:一是舊記憶體復用,Structera X控制器支援DDR4記憶體接入,可將退役的DDR4記憶體納入CXL記憶體池,減少對昂貴DDR5的新增採購;二是記憶體池化,通過CXL協議打破單CPU對記憶體的獨占限制,讓多台伺服器共享記憶體資源,消化系統中的閒置容量。

按當前DDR5每GB 27至37美元的現貨價計算,一個12TB的記憶體池僅DRAM硬體成本就接近50萬美元;若按3倍壓縮比估算,物理DRAM採購量可縮減三分之二,單池就能節省三十餘萬美元。

閃迪:把NAND塞到GPU下面

Sandisk(閃迪)的解法更加激進——從封裝層面重構AI晶片的記憶體架構。

閃迪正聯合SK海力士推動高頻寬快閃記憶體(HBF)標準化,試圖讓NAND快閃記憶體進一步靠近計算核心,打造HBM與SSD之間的全新存儲層級。

閃迪的專利方案提出了「GPU下的NAND」架構:將高容量NAND快閃記憶體堆疊在GPU或AI加速器的正下方,周圍環繞HBM堆疊,通過大幅縮短數據傳輸距離,提升快閃記憶體的訪問頻寬。按照規劃,HBF將與HBM4物理相容,容量可達同體積HBM的8至16倍,成本則具備顯著優勢,主打長上下文推理、KV快取、模型權重串流加載等讀取密集型場景。

這種被稱作HBF(High Bandwidth Flash,高頻寬快閃記憶體)的技術,定位在HBM和SSD之間。如果把HBM比作攤在桌面上的「參考書」,那基於NAND的HBF就是放在GPU旁邊的「書櫃」。HBM處理必須立即響應的數據,而GPU下方的NAND存儲更大的數據並進行反覆讀寫。

閃迪的目標是開發頻寬接近HBM的HBF,以類似成本提供8到16倍HBM的容量。2026年2月,閃迪與SK海力士正式啟動了HBF規範標準化聯盟。SK海力士貢獻其在HBM中積累的堆疊、封裝與中介層技術,閃迪則帶來NAND和快閃記憶體設計的能力。雙方計劃在2026年下半年推出首批HBF樣品,2027年初應用於AI推理設備。目標是構建三級記憶體架構:HBM負責超低延遲的即時計算,HBF承接大容量、高吞吐的反覆讀取數據,SSD則承載冷存儲,各層級各司其職。

當然,HBF走向大規模商業化仍需跨越多重關卡。計算晶片與NAND堆疊帶來的高熱密度、混合鍵合與複雜布線的良率挑戰、以及冷熱數據分層調度的軟體生態,都需要時間逐步打磨。

據韓國新榮證券預計,HBF市場有望在2027年形成,到2030年增長至120億美元的規模。

對動輒數萬節點的雲廠商而言,這意味著巨額的資本開支優化。目前Structera已是業內首款量產的搭載硬體內聯壓縮的CXL控制器,相關技術方案已提交OCP開放計算項目標準化,未來適配範圍將進一步擴大。

前車之鑑:3D XPoint的未竟之路

說起來,用快閃記憶體來擴展主記憶體並非新鮮事。

早在2015年,英特爾與美光就聯合推出了3D XPoint存儲技術,其願景恰好命中了今天的行業痛點——打造一種性能介於DRAM和NAND快閃記憶體之間、支援字節尋址、成本接近快閃記憶體的新型存儲介質,在記憶體與傳統存儲之間構建一個新的層級。

遺憾的是,3D XPoint最終沒能兌現最初的承諾。

製程研發的滯後讓它的成本一路追平DRAM,性能卻僅比普通快閃記憶體快數倍;加之英特爾將其綁定自家Xeon處理器的封閉策略,使其始終無法進入主流市場。最終項目終止,英特爾的快閃記憶體業務也被出售給SK海力士,這項曾被寄予厚望的技術,成了存儲行業一段令人唏噓的註腳。

如果英特爾當初沒有放棄3D XPoint,如今的利潤該有多豐厚?可惜歷史沒有如果。

此外,國內一些做存算一體、記憶體池化解決方案的初創公司,接下來估計也會受到更多關注。畢竟在DRAM價格高企、供給側又被擠佔的大背景下,誰能拿出一套真正靠譜的記憶體優化方案,誰就可能在資本市場上拿到下一輪入場券。

寫在最後

從3D XPoint的折戟到今天多種路徑並行,存儲行業對記憶體效率的探索從未止步。

AMD用AI預測來調度冷熱數據、Apple用稀疏激活和快閃記憶體存儲來壓縮端側記憶體佔用、Marvell用硬體壓縮讓物理記憶體發揮更大效用、閃迪用3D堆疊把NAND搬到GPU腳下——四家公司的技術路徑各不相同,但指向同一個方向:AI推理的記憶體層級正在重構——熱數據留在DRAM與HBM中保障性能,溫冷數據逐步下沉到快閃記憶體層承接容量,多層介質協同平衡性能與成本。

DRAM的昂貴,正在把整個行業「逼上了梁山」。但正是這種壓力,催生出了一系列令人眼前一亮的技術創新。

不可否認,快閃記憶體與DRAM在延遲上的物理鴻溝始終存在,各類方案的實際表現仍需大規模部署的驗證。但可以確定的是,單純堆砌DRAM來解決問題的時代正在過去,更高效、更分層的記憶體體系,已是行業前行的新方向。

本文來源:半導體行業觀察

風險提示及免責條款

        市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用戶特殊的投資目標、財務狀況或需要。用戶應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。
DRAM1.31%
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆