在大模型參數突破萬億級的 AI 競賽中，GPU 算力固然是焦點，但一個更隱蔽卻決定上限的組件正成為行業爭奪的制高點——高帶寬內存（High Bandwidth Memory, HBM）。如果把 GPU 比作一台擁有上萬氣缸的超高性能引擎，那麼 HBM 就是為其持續供給數據的燃料系統。供油一旦跟不上，再強大的引擎也只能空轉。

業內普遍意識到，AI 算力瓶頸已不再局限於計算單元本身，而是更多地卡在數據搬運效率上。數據顯示，傳統計算架構中，數據搬運能耗往往佔系統總能耗的 60%-80%。在推理場景下，GPU 的算力閒置率甚至可達 99%。這背後一個關鍵的制約因素，正是內存帶寬。

HBM 憑藉 3D 堆疊與矽通孔（TSV）技術，在單位面積內實現了遠超傳統內存的帶寬與能效，已成為 NVIDIA、AMD、Google 等巨頭 AI 加速器的標配。

技術原理：HBM 如何重構 GPU 與內存的數據通道

從“平面跑車”到“垂直電梯”

HBM 並非一種全新的存儲介質，而是一套定義了“如何讓 DRAM 以極高帶寬互連”的接口與封裝技術規範。其核心技術路徑可拆解為三個層面：

3D 堆疊——將多層 DRAM 芯片垂直堆疊在一起（目前主流為 8 層至 12 層，HBM4 已推進至 16 層），在相同的物理面積上成倍提升存儲密度與並行通道數。

矽通孔（TSV） ——在每層 DRAM 芯片內部蝕刻直徑僅 5-10 微米的微孔，填充導電材料形成垂直通道，實現層間萬級互聯。這與傳統 PCB 布線形成鮮明對比：傳統方案走線長度以厘米甚至米為單位，而 TSV 的信號傳輸距離被壓縮至微米級，從而大幅降低信號衰減與延遲。

矽中介層（Interposer） ——HBM 堆疊通過微凸塊與矽中介層連接，中介層再與 GPU/CPU 芯片在極短距離內互連，形成統一的封裝模組。整個結構通過 CoWoS 等 2.5D 先進封裝工藝實現高密度集成。

這套架構帶來的核心突破在於總線寬度。一個 HBM 堆疊的總線寬度通常為 1024 位，而 HBM3E 更可擴展至 2048 位。以 SK 海力士最新量產的 HBM3E 為例，單顆容量已達 24GB，帶寬突破 1TB/s。相比之下，傳統 GDDR 方案的位寬僅 32 位（單顆）或 384 位（多顆組合），兩者的數據傳輸能力存在數量級差異。

HBM 的底層設計邏輯是“寬而慢”——通過極大的並行通道數換取總帶寬，每個通道運行在相對較低頻率，因而能效顯著優於高頻方案。而 GDDR 的邏輯是“窄而快”——依靠更高的工作頻率從少數通道中榨取帶寬。這兩種設計哲學適配了完全不同的應用場景：HBM 追求極致吞吐量，GDDR 則在吞吐量與成本之間尋求平衡。

HBM vs GDDR6：一場“寬而慢”與“窄而快”的對決

HBM 與 GDDR6 同屬 DRAM 內存家族，核心使命都是為 GPU 提供數據訪問通道，但二者在設計目標、性能特性與成本結構上存在本質差異。

帶寬：HBM3E 單堆疊帶寬可達 1.2TB/s，下一代 HBM4 预计躍升至 2.0TB/s 以上。GDDR6X 的單卡極限帶寬約 1TB/s，在頭部產品中已趨近物理上限。但從單位帶寬的能耗來看，HBM 的能效顯著占優，在 AI 數據中心的大規模部署中，這一差異直接轉化為運營成本上可量化的優勢。

功耗與延遲：由於 TSV 的垂直路徑極短，HBM 的能耗比較 GDDR5 降低約 30%。在延遲維度，GDDR 依賴 PCB 走線與 GPU 通信，延遲通常在微秒量級；HBM 將內存直接封裝在 GPU 芯片附近，延遲壓縮至納秒級。值得注意的是，HBM 在極致吞吐量場景下，隨機訪問延遲略高於 GDDR，但對大規模的並行流式訪問（即 AI 訓練與推理的典型模式）而言，吞吐量才是關鍵瓶頸。

成本：這是 HBM 最顯著的劣勢。據行業數據，HBM 的單 GB 成本超過 25 美元，而 GDDR6 僅約 5-8 美元。HBM 在高端 GPU 總成本中的占比高達 60%-80%。GDDR6 的單位成本帶寬表現實際上優於 HBM——當應用場景對帶寬的絕對峰值要求不高時，GDDR6 方案在性價比維度具備明顯優勢。

綜合來看，HBM 與 GDDR 的選型本質上是一個性能邊界與成本約束的權衡問題。HBM 服務於“必須達到某個帶寬閾值才能運行”的場景——例如數千億參數的大模型推理，低於某一帶寬水平，系統將無法有效工作。GDDR6 則服務於“在可接受的性能水平下尋求最低成本”的場景，典型如 7B-13B 參數規模的中小模型部署。

兩者並非替代關係，而是面向不同需求層級的並行技術路線。但在 AI 訓練與大規模推理場景中，HBM 的優勢正在將 GDDR 逐步擠出核心賽道。

“內存牆”困局：為何 AI 模型越大，HBM 需求越呈指數級增長

理解 HBM 需求爆發式增長的邏輯，需要回到 AI 計算範式的一個核心瓶頸——“內存牆”（Memory Wall）。

算力增速與帶寬增速的剪刀差

過去三十年，處理器算力的增長遵循摩爾定律，每 18-24 個月翻一番；而內存帶寬的提升速度卻要緩慢得多。根據對 AI 與內存牆的研究，AI 模型算力每兩年增長約 3 倍，但內存帶寬僅增長約 1.6 倍，互連網絡帶寬的增幅更低。這意味着每一次算力升級，內存搬運能力都相對“貶值”。

這一矛盾在推理階段尤為突出。訓練階段以矩陣乘法（GEMM）為主，計算密度高，算術強度可達 100+ FLOPs/byte；而推理階段以矩陣向量乘法（GEMV）為核心，算術強度往往低於 2 FLOPs/byte。算術強度越低，系統的性能天花板就越依賴內存帶寬而非計算能力——這正是“帶寬牆”效應的來源。

大模型推理的“搬運負擔”

大模型推理的基本流程可概括為：每生成一個 token，都需要將整個模型的全部參數從內存加載到計算核心。以 Llama 3 70B 模型為例，在 FP16 精度下，模型權重約 140GB。每生成一個 token，這 140GB 參數就要完整搬運一次。如果要保證每秒生成 30 個 token 的流暢體驗，HBM 到計算核心之間的帶寬必須支撐約每秒 4.2TB 的搬運量。

這一需求已經逼近甚至超越了當前主流硬件的極限。NVIDIA H100 SXM5 的 HBM 帶寬為 3.35TB/s。換言之，即使是最頂級的 AI 加速卡，在面對 70B 參數模型時，其內存帶寬也已進入“勉強夠用”的狀態。隨著模型參數規模向數百億、數千億乃至萬億級邁進，所需的帶寬將以線性甚至超線性的方式增長。

容量與帶寬的雙重緊約束

內存容量是另一個關鍵維度。如果一個模型的總參數量超過單 GPU 的 HBM 容量，就必須將模型切分到多個 GPU 上並行運行——這種方式被稱為張量並行。但切分會帶來通信開銷的新瓶頸：GPU 之間需要頻繁傳遞中間結果，最終反而可能進一步拖累整體效率。

因此，HBM 的價值體現在兩個層面：帶寬決定了單卡推理的出詞速度與延遲下限；容量則決定了模型是否能裝入單卡、需要多少張卡以及跨卡通信的成本有多高。

當前的產業路徑已經清晰：HBM 正從“高端選配”升級為 AI 算力的“標準配置”。據 TrendForce 數據，2025 年 HBM 需求量同比增長超過 130%，2026 年將在高基數上繼續增長 70% 以上。HBM 從圖形處理領域的配角，躍升為 AI 算力鏈條中不可或缺的核心組件。

全產業鏈傳導：從技術選型到千億級市場供需失衡

市場規模躍升

HBM 市場的擴張速度超出了多數機構的早期預測。據 SEMI 中國數據，2026 年 HBM 市場規模預計增長 58% 至 546 億美元，占整個 DRAM 市場的近四成。美光預計 HBM 的潛在市場規模（TAM）複合年增長率約為 40%，將從 2025 年的約 350 億美元增長至 2028 年的 1000 億美元——這一數字已超過 2024 年整個 DRAM 市場的規模。

供應端的剛性約束

但需求端的爆發式增長與供給端的剛性產能形成尖銳矛盾。據 SEMI 數據，儘管三星、SK 海力士、美光三大原廠已將 70% 的新增/可調配產能轉向 HBM 生產，HBM 的整體產能缺口仍高達 50%-60%。

產能瓶頸的根源在於 HBM 製造的高壁壘。HBM 生產不僅需要先進的 DRAM 製程工藝（目前頭部廠商已推進至 1β nm 節點），更需要 TSV 刻蝕、微凸塊鍵合、晶圓級封裝等一系列先進封裝技術的協同。其中，作為 HBM 與 GPU 集成核心平台的台積電 CoWoS 封裝產能，儘管 2026 年末預計將擴張至每月 12.5 萬片以上，同比增長約 79%，但仍無法完全滿足來自 NVIDIA、AMD、博通等客戶的訂單需求。

供應鏈風險與價格傳導

產能缺口直接反映在價格端。HBM3E 單價在 2025 年間上漲了 5%-10%。更值得關注的是，三大原廠將產能大規模轉向 HBM 後，消費級 DDR 內存供給顯著收縮，預計價格將持續上漲至 2026 年底。HBM 的供應短缺正在通過產能擠出的方式，影響更廣泛的內存產業鏈。

黃仁勳在 2026 年 6 月確認，SK 海力士、三星和美光均已通過認證並開始大規模供應 HBM4 芯片，三星於 2026 年 2 月在業內率先啟動 HBM4 量產出貨。但即便是三巨頭同步擴產，2025-2026 年 HBM 的供需缺口仍在 50% 量級。HBM 的供需平衡短期內仍難以達成。上游擴產節奏、封裝產能瓶頸與下游 AI 算力需求的高速擴張，構成了一個動態但持續緊繃的供需格局。

結語

從技術原理的底層創新，到 AI 算力場景的剛性依賴，再到全產業鏈的供需失衡，HBM 已從內存技術演進中的一個分支，演變為 AI 基礎設施競爭的核心賽點。

HBM 在 AI 訓練與推理中的不可替代性，源於一個非常基礎的計算邏輯：當模型參數規模突破某個閾值之後，帶寬就不再是一個“優化項”，而是一個“使能項”——低於門檻，系統無法有效運行。GDDR6 雖在成本維度具備優勢，但其窄通道、高頻的架構在帶寬天花板與能效水平上，難以匹配萬億參數模型的運算密度。這種結構性差異，決定了在 AI 算力的核心賽道上，HBM 與 GDDR 並非簡單的競爭關係，而是面向不同層級需求的分層方案。

展望未來，HBM4 的量產推進（單堆疊帶寬預計提升至 2TB/s 以上）、16 層堆疊技術的成熟以及混合鍵合等新一代封裝工藝的導入，將進一步提升 HBM 的性能上限。但值得關注的是，華為等廠商已開始探索減少對 HBM 依賴的算法優化路徑，SRAM 與存算一體架構等替代方向也在同步推進。HBM 能否在技術迭代中持續保持領先，以及其供給瓶頸能否在擴產周期中得到有效緩解，將是未來數年 AI 算力產業鏈最重要的觀察變數之一。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

打賞
按讚
回覆
轉發
分享

回覆

請輸入回覆內容

暫無回覆

熱門話題
查看更多
#
Gate直通IPO認購SpaceX
529.83萬熱度
#
Anthropic發布Fable5模型
64.45萬熱度
#
SpaceX認購規模超2500億美元
140.55萬熱度
#
預測NBA總冠軍贏20000U
85.58萬熱度
#
Bitmine增持10萬枚ETH
152.5萬熱度

HBM 與 GDDR：高帶寬內存如何突破 AI 訓練與推理中的“內存牆”瓶頸

技術原理：HBM 如何重構 GPU 與內存的數據通道

HBM vs GDDR6：一場“寬而慢”與“窄而快”的對決

“內存牆”困局：為何 AI 模型越大，HBM 需求越呈指數級增長

全產業鏈傳導：從技術選型到千億級市場供需失衡

結語

熱門話題

Gate直通IPO認購SpaceX

Anthropic發布Fable5模型

SpaceX認購規模超2500億美元

預測NBA總冠軍贏20000U

Bitmine增持10萬枚ETH

已置頂