HBM 與 GDDR:高帶寬內存如何突破 AI 訓練與推理中的“內存牆”瓶頸

在大模型參數突破萬億級的 AI 競賽中,GPU 算力固然是焦點,但一個更隱蔽卻決定上限的組件正成為行業爭奪的制高點——高帶寬內存(High Bandwidth Memory, HBM)。如果把 GPU 比作一台擁有上萬氣缸的超高性能引擎,那麼 HBM 就是為其持續供給數據的燃料系統。供油一旦跟不上,再強大的引擎也只能空轉。

業內普遍意識到,AI 算力瓶頸已不再局限於計算單元本身,而是更多地卡在數據搬運效率上。數據顯示,傳統計算架構中,數據搬運能耗往往佔系統總能耗的 60%-80%。在推理場景下,GPU 的算力閒置率甚至可達 99%。這背後一個關鍵的制約因素,正是內存帶寬。

HBM 憑藉 3D 堆疊與矽通孔(TSV)技術,在單位面積內實現了遠超傳統內存的帶寬與能效,已成為 NVIDIA、AMD、Google 等巨頭 AI 加速器的標配。

技術原理:HBM 如何重構 GPU 與內存的數據通道

從“平面跑車”到“垂直電梯”

HBM 並非一種全新的存儲介質,而是一套定義了“如何讓 DRAM 以極高帶寬互連”的接口與封裝技術規範。其核心技術路徑可拆解為三個層面:

3D 堆疊——將多層 DRAM 芯片垂直堆疊在一起(目前主流為 8 層至 12 層,HBM4 已推進至 16 層),在相同的物理面積上成倍提升存儲密度與並行通道數。

矽通孔(TSV) ——在每層 DRAM 芯片內部蝕刻直徑僅 5-10 微米的微孔,填充導電材料形成垂直通道,實現層間萬級互聯。這與傳統 PCB 布線形成鮮明對比:傳統方案走線長度以厘米甚至米為單位,而 TSV 的信號傳輸距離被壓縮至微米級,從而大幅降低信號衰減與延遲。

矽中介層(Interposer) ——HBM 堆疊通過微凸塊與矽中介層連接,中介層再與 GPU/CPU 芯片在極短距離內互連,形成統一的封裝模組。整個結構通過 CoWoS 等 2.5D 先進封裝工藝實現高密度集成。

這套架構帶來的核心突破在於總線寬度。一個 HBM 堆疊的總線寬度通常為 1024 位,而 HBM3E 更可擴展至 2048 位。以 SK 海力士最新量產的 HBM3E 為例,單顆容量已達 24GB,帶寬突破 1TB/s。相比之下,傳統 GDDR 方案的位寬僅 32 位(單顆)或 384 位(多顆組合),兩者的數據傳輸能力存在數量級差異。

HBM 的底層設計邏輯是“寬而慢”——通過極大的並行通道數換取總帶寬,每個通道運行在相對較低頻率,因而能效顯著優於高頻方案。而 GDDR 的邏輯是“窄而快”——依靠更高的工作頻率從少數通道中榨取帶寬。這兩種設計哲學適配了完全不同的應用場景:HBM 追求極致吞吐量,GDDR 則在吞吐量與成本之間尋求平衡。

HBM vs GDDR6:一場“寬而慢”與“窄而快”的對決

HBM 與 GDDR6 同屬 DRAM 內存家族,核心使命都是為 GPU 提供數據訪問通道,但二者在設計目標、性能特性與成本結構上存在本質差異。

帶寬:HBM3E 單堆疊帶寬可達 1.2TB/s,下一代 HBM4 预计躍升至 2.0TB/s 以上。GDDR6X 的單卡極限帶寬約 1TB/s,在頭部產品中已趨近物理上限。但從單位帶寬的能耗來看,HBM 的能效顯著占優,在 AI 數據中心的大規模部署中,這一差異直接轉化為運營成本上可量化的優勢。

功耗與延遲:由於 TSV 的垂直路徑極短,HBM 的能耗比較 GDDR5 降低約 30%。在延遲維度,GDDR 依賴 PCB 走線與 GPU 通信,延遲通常在微秒量級;HBM 將內存直接封裝在 GPU 芯片附近,延遲壓縮至納秒級。值得注意的是,HBM 在極致吞吐量場景下,隨機訪問延遲略高於 GDDR,但對大規模的並行流式訪問(即 AI 訓練與推理的典型模式)而言,吞吐量才是關鍵瓶頸。

成本:這是 HBM 最顯著的劣勢。據行業數據,HBM 的單 GB 成本超過 25 美元,而 GDDR6 僅約 5-8 美元。HBM 在高端 GPU 總成本中的占比高達 60%-80%。GDDR6 的單位成本帶寬表現實際上優於 HBM——當應用場景對帶寬的絕對峰值要求不高時,GDDR6 方案在性價比維度具備明顯優勢。

綜合來看,HBM 與 GDDR 的選型本質上是一個性能邊界與成本約束的權衡問題。HBM 服務於“必須達到某個帶寬閾值才能運行”的場景——例如數千億參數的大模型推理,低於某一帶寬水平,系統將無法有效工作。GDDR6 則服務於“在可接受的性能水平下尋求最低成本”的場景,典型如 7B-13B 參數規模的中小模型部署。

兩者並非替代關係,而是面向不同需求層級的並行技術路線。但在 AI 訓練與大規模推理場景中,HBM 的優勢正在將 GDDR 逐步擠出核心賽道。

“內存牆”困局:為何 AI 模型越大,HBM 需求越呈指數級增長

理解 HBM 需求爆發式增長的邏輯,需要回到 AI 計算範式的一個核心瓶頸——“內存牆”(Memory Wall)。

算力增速與帶寬增速的剪刀差

過去三十年,處理器算力的增長遵循摩爾定律,每 18-24 個月翻一番;而內存帶寬的提升速度卻要緩慢得多。根據對 AI 與內存牆的研究,AI 模型算力每兩年增長約 3 倍,但內存帶寬僅增長約 1.6 倍,互連網絡帶寬的增幅更低。這意味着每一次算力升級,內存搬運能力都相對“貶值”。

這一矛盾在推理階段尤為突出。訓練階段以矩陣乘法(GEMM)為主,計算密度高,算術強度可達 100+ FLOPs/byte;而推理階段以矩陣向量乘法(GEMV)為核心,算術強度往往低於 2 FLOPs/byte。算術強度越低,系統的性能天花板就越依賴內存帶寬而非計算能力——這正是“帶寬牆”效應的來源。

大模型推理的“搬運負擔”

大模型推理的基本流程可概括為:每生成一個 token,都需要將整個模型的全部參數從內存加載到計算核心。以 Llama 3 70B 模型為例,在 FP16 精度下,模型權重約 140GB。每生成一個 token,這 140GB 參數就要完整搬運一次。如果要保證每秒生成 30 個 token 的流暢體驗,HBM 到計算核心之間的帶寬必須支撐約每秒 4.2TB 的搬運量。

這一需求已經逼近甚至超越了當前主流硬件的極限。NVIDIA H100 SXM5 的 HBM 帶寬為 3.35TB/s。換言之,即使是最頂級的 AI 加速卡,在面對 70B 參數模型時,其內存帶寬也已進入“勉強夠用”的狀態。隨著模型參數規模向數百億、數千億乃至萬億級邁進,所需的帶寬將以線性甚至超線性的方式增長。

容量與帶寬的雙重緊約束

內存容量是另一個關鍵維度。如果一個模型的總參數量超過單 GPU 的 HBM 容量,就必須將模型切分到多個 GPU 上並行運行——這種方式被稱為張量並行。但切分會帶來通信開銷的新瓶頸:GPU 之間需要頻繁傳遞中間結果,最終反而可能進一步拖累整體效率。

因此,HBM 的價值體現在兩個層面:帶寬決定了單卡推理的出詞速度與延遲下限;容量則決定了模型是否能裝入單卡、需要多少張卡以及跨卡通信的成本有多高。

當前的產業路徑已經清晰:HBM 正從“高端選配”升級為 AI 算力的“標準配置”。據 TrendForce 數據,2025 年 HBM 需求量同比增長超過 130%,2026 年將在高基數上繼續增長 70% 以上。HBM 從圖形處理領域的配角,躍升為 AI 算力鏈條中不可或缺的核心組件。

全產業鏈傳導:從技術選型到千億級市場供需失衡

市場規模躍升

HBM 市場的擴張速度超出了多數機構的早期預測。據 SEMI 中國數據,2026 年 HBM 市場規模預計增長 58% 至 546 億美元,占整個 DRAM 市場的近四成。美光預計 HBM 的潛在市場規模(TAM)複合年增長率約為 40%,將從 2025 年的約 350 億美元增長至 2028 年的 1000 億美元——這一數字已超過 2024 年整個 DRAM 市場的規模。

供應端的剛性約束

但需求端的爆發式增長與供給端的剛性產能形成尖銳矛盾。據 SEMI 數據,儘管三星、SK 海力士、美光三大原廠已將 70% 的新增/可調配產能轉向 HBM 生產,HBM 的整體產能缺口仍高達 50%-60%。

產能瓶頸的根源在於 HBM 製造的高壁壘。HBM 生產不僅需要先進的 DRAM 製程工藝(目前頭部廠商已推進至 1β nm 節點),更需要 TSV 刻蝕、微凸塊鍵合、晶圓級封裝等一系列先進封裝技術的協同。其中,作為 HBM 與 GPU 集成核心平台的台積電 CoWoS 封裝產能,儘管 2026 年末預計將擴張至每月 12.5 萬片以上,同比增長約 79%,但仍無法完全滿足來自 NVIDIA、AMD、博通等客戶的訂單需求。

供應鏈風險與價格傳導

產能缺口直接反映在價格端。HBM3E 單價在 2025 年間上漲了 5%-10%。更值得關注的是,三大原廠將產能大規模轉向 HBM 後,消費級 DDR 內存供給顯著收縮,預計價格將持續上漲至 2026 年底。HBM 的供應短缺正在通過產能擠出的方式,影響更廣泛的內存產業鏈。

黃仁勳在 2026 年 6 月確認,SK 海力士、三星和美光均已通過認證並開始大規模供應 HBM4 芯片,三星於 2026 年 2 月在業內率先啟動 HBM4 量產出貨。但即便是三巨頭同步擴產,2025-2026 年 HBM 的供需缺口仍在 50% 量級。HBM 的供需平衡短期內仍難以達成。上游擴產節奏、封裝產能瓶頸與下游 AI 算力需求的高速擴張,構成了一個動態但持續緊繃的供需格局。

結語

從技術原理的底層創新,到 AI 算力場景的剛性依賴,再到全產業鏈的供需失衡,HBM 已從內存技術演進中的一個分支,演變為 AI 基礎設施競爭的核心賽點。

HBM 在 AI 訓練與推理中的不可替代性,源於一個非常基礎的計算邏輯:當模型參數規模突破某個閾值之後,帶寬就不再是一個“優化項”,而是一個“使能項”——低於門檻,系統無法有效運行。GDDR6 雖在成本維度具備優勢,但其窄通道、高頻的架構在帶寬天花板與能效水平上,難以匹配萬億參數模型的運算密度。這種結構性差異,決定了在 AI 算力的核心賽道上,HBM 與 GDDR 並非簡單的競爭關係,而是面向不同層級需求的分層方案。

展望未來,HBM4 的量產推進(單堆疊帶寬預計提升至 2TB/s 以上)、16 層堆疊技術的成熟以及混合鍵合等新一代封裝工藝的導入,將進一步提升 HBM 的性能上限。但值得關注的是,華為等廠商已開始探索減少對 HBM 依賴的算法優化路徑,SRAM 與存算一體架構等替代方向也在同步推進。HBM 能否在技術迭代中持續保持領先,以及其供給瓶頸能否在擴產周期中得到有效緩解,將是未來數年 AI 算力產業鏈最重要的觀察變數之一。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆