AI 推理時代真的來了？GPU、CPU 與 ASIC 的三極算力重構

Question

2026年6月22日，美股芯片板塊全線大漲——費城半導體指數單日上漲6.42%，英特爾因與蘋果合作生產晶片的消息漲逾10%，台積電ADR上漲6.94%收於462.12美元，英偉達上漲近3%。市場情緒的背後，是一個正在加速兌現的產業判斷：AI算力的需求結構已從訓練驅動轉向推理驅動。

據行業分析，推理占AI總算力需求已從2023年的約三分之一升至2026年的三分之二，預計2028至2030年將達到70%至85%。這一結構性轉變正在重新劃定晶片競爭的主戰場——從“誰的GPU訓練最快”到“誰的晶片推理總成本最低、吞吐量最高”。

全球人工智能推理晶片市場2024年價值為854億美元，預計將從2025年的1054.7億美元成長至2033年的5707.7億美元，預測期內複合年增長率為23.5%。其中，雲AI推理晶片市場2025年估值為1021.9億美元，2026年預計增長至1189億美元，到2032年有望達到3209.8億美元。與此同時，全球邊緣AI晶片組（推理與訓練合計）市場規模預計從2026年的344億美元增至2031年的960億美元。

在這一擴張周期中，晶片類型之間的力量對比正在發生微妙而深刻的變化。GPU仍是最大的市場佔有者，在訓練與推理需求的雙重支撐下，預計截至2031年將保持20%的複合年增長率。但人工智能ASIC被多家機構視為增長最為迅猛的細分領域。摩根大通分析師估計，數字AI ASIC市場到2026年將達到約600億至700億美元，並在未來幾年保持40%至50%以上的複合增長率。

更值得關注的是CPU的回歸。過去三年，CPU在AI敘事中長期處於邊緣位置，但推理需求的爆發正在改變這一格局。

CPU何以重返舞台中央

AI推理與訓練在計算邏輯上存在本質差異。訓練是一個大規模並行的矩陣運算過程——數萬億次浮點運算可以在數萬個GPU核心上同時進行，這正是GPU的絕對優勢領域。但推理，尤其是代理式AI（Agentic AI）的推理，涉及任務編排、工具調用、多步邏輯判斷和順序決策。這些工作負載並非純粹的並行計算，而是大量依賴CPU擅長的複雜邏輯控制與串行處理能力。

喬治亞理工與英特爾的一項研究指出，在Agentic AI場景中，50%至90%的延遲來自CPU，而非算力晶片——因為大模型要調用插件、聯網搜索、處理多步邏輯，這些工作全靠CPU調度。英偉達自身也在2026年3月承認了這一現實：其高管Dion Harris公開表示，“CPU正在成為AI工作流中的瓶頸”——這來自一家以“GPU是AI唯一需要的晶片”為產業信念的公司。

從配置比例的變化可以更直觀地看到這一趨勢。在AI訓練階段，CPU與GPU的配置比例通常維持在1:8的極端狀態，GPU承擔絕大部分計算壓力。而進入推理時代後，根據TrendForce報告，這一比例正快速拉近至1:1到1:2之間。英特爾CEO陳立武在2026年第一季度財報電話會議上也指出，訓練負載通常需要7至8個GPU配合1個CPU，而推理負載已收緊至3至4個GPU配合1個CPU，未來有望進一步向1:1的平衡邁進。

以英偉達CEO黃仁勳的估算為參照：每GW資料中心大約需要30萬顆Rubin GPU，而按每顆ARM CPU 136個核心換算，每GW資料中心大約需要22.1萬顆CPU，新的CPU與GPU配比約為1:1.4。這與過去GPU主導時代的比例相比，CPU的地位已大幅提升。

GPU的護城河與推理場景的挑戰

儘管CPU正在收復失地，GPU在AI推理階段仍佔據不可替代的位置，核心在於內存帶寬與並行吞吐量兩個維度。

在LLM推理過程中，生成每個token需讀取數億至數百億參數，屬於典型的內存密集型任務。CPU方案依賴系統DDR內存，帶寬通常在50至100GB/s量級；而GPU採用GDDR6X或HBM顯存，帶寬可達800GB/s以上，高端GPU的HBM2e顯存帶寬可達1.5TB/s，是CPU的20倍。在Llama 3.1 8B模型推理中，CPU方案單任務速度僅819 token/s，而8卡GPU集群可達46,841 token/s。当並發請求增加時，CPU性能從819 token/s骤降至257 token/s，而8卡GPU集群幾乎無衰減。

在算力密度方面，GPU通過數千個CUDA核心實現並行化，支持FP4/FP8等低精度格式，算力可達數百TFLOPS，而CPU的FP32算力通常在1至10 TFLOPS量級。

這些數據說明，在需要高吞吐、高並發的推理場景中——如面向大規模用戶的雲AI服務——GPU仍是最優解。英偉達在這一領域的主導地位尚未被撼動。根據SemiAnalysis的數據，2026年第一季度英偉達在AI訓練晶片市場佔有率為92%，推理晶片市場佔有率為78%。IDC估計英偉達控制著約81%的AI晶片市場份額。AI加速器市場2025年約為1600億美元，2026年正朝向2000億美元以上邁進，推理支出預計將占其中的三分之二。

但值得關注的是，GPU在推理場景中的份額正面臨多重壓力——來自CPU的回歸、來自ASIC的專用化競爭，以及來自成本結構的現實考量。

CPU廠商的推理反擊戰

CPU在推理階段的價值重估，已經轉化為可量化的市場動能。

數據中心處理器市場正受生成式AI工作負載需求激增的推動而快速增長，預計市場規模將從2025年的2150億美元擴展至2031年的6560億美元。國海證券指出，超大規模數據中心已進入“升級周期”，預計2026年伺服器CPU出貨量有望增長25%。

AMD是這一趨勢的顯著受益者。AI伺服器需求拉動了EPYC CPU出貨量，第五代Turin已占據伺服器CPU市場較大份額，2026年伺服器CPU業務預計至少增長50%。伯恩斯坦分析師預測AMD旗艦EPYC處理器銷售額2026年有望飆升30%。在數據中心CPU市場，截至2026年初，英特爾持有約60%的份額，AMD約24%，英偉達約6%。AMD同時以Instinct加速器在AI GPU市場與英偉達競爭，使其在推理時代的雙重布局中佔據獨特位置。

英特爾同樣在積極調整戰略。2026年6月Computex上，英特爾新任CEO陳立武以18A工藝加機架級解耦架構宣告：推理時代CPU重回主位，AI基礎設施從“買全家桶”走向“拼樂高”。英特爾至強處理器內置的高級矩陣擴展（AMX）技術，可在未配置GPU或其他AI加速器的情況下為中小參數規模的大語言模型提供推理加速支持。

最具象徵意義的變化來自英偉達自身。這家以GPU定義AI時代的公司，已在2026年相繼推出Grace和Vera CPU產品線，其中Vera CPU專門面向推理與代理式AI工作負載設計。英偉達預計2026年CPU業務收入將達到200億美元。英偉達與Arm於2026年相繼推出獨立CPU產品，標誌著這家GPU巨頭正式進入CPU賽道。

ASIC與專用晶片：第三條路線的崛起

在GPU與CPU的二元敘事之外，ASIC（專用集成電路）正成為推理市場中增長最快的變數。

TD Cowen預計，商用加速器份額將從2025年的約91%降至2030年的約75%，而定制ASIC將從約9%升至約25%。ASIC伺服器出貨量2026年預計增長44.6%，而GPU伺服器出貨增速為16.1%，僅為ASIC的三分之一。

超大規模雲計算廠商正在加速自研推理晶片。Google TPU、AWS Inferentia、Meta MTIA，以及Groq的LPU（語言處理單元）等專為推理優化的ASIC晶片正加速湧現。Broadcom 2026年第二季度AI收入達108億美元，同比增長143%，全年AI收入指引為560億美元，同比增長180%。Broadcom預計將佔據定制AI晶片市場約60%的份額。

這一趨勢意味著推理晶片市場正從“通用GPU主導”走向“GPU+CPU+ASIC”的多元格局。GPU負責高強度訓練與大規模推理，CPU負責任務編排與系統控制，ASIC則在特定推理負載上實現極致能效比。

成本結構與推理經濟學的重塑

推理階段的晶片選型，最終要回到一個核心問題：每百萬token的推理成本。

在訓練階段，模型精度和訓練時間是首要指標，成本容忍度較高。但推理是持續性、高頻次的生產活動——每一次API調用、每一個用戶請求都產生直接成本。這使得推理晶片的競爭從“絕對性能”轉向“單位成本下的有效吞吐量”。

GPU方案在硬體採購上成本更高。以AMD MI300X為例，售價約為1萬至1.5萬美元，而英偉達H100的售價在2.5萬至4萬美元之間。但GPU的單位算力成本更低——以某雲廠商的按需實例為例，GPU實例的每秒token生成成本比CPU實例低40%至60%。CPU方案的優勢在於無需額外硬體投入，適合低並發、低延遲的單任務場景。

然而，隨著推理規模的擴大，CPU方案的邊際成本上升更快——當並發請求增加時，CPU需通過時間片輪轉調度任務，上下文切換開銷隨並發數指數級上升。這意味著在規模化推理部署中，GPU或ASIC的初始高投入往往能通過更高的吞吐量和更低的單位成本實現更優的長期ROI。

結語

推理算力需求占比從三分之一升至三分之二，這一數字變化的背後是晶片產業競爭邏輯的深層轉變。

對英偉達而言，其在訓練市場的絕對優勢（約90%份額）短期內難以被撼動，但推理市場的增量競爭將更為激烈。New Street Research給出了最激進的預測：英偉達推理份額到2028年可能降至20%至30%。即使保守如Bloomberg Intelligence的預測——英偉達到2030年保持70%至75%份額——ASIC出貨量增速遠超GPU的事實也已確立。

對AMD和英特爾而言，推理時代的CPU需求回升是一次結構性機遇。AMD以EPYC CPU加Instinct GPU的雙線布局，英特爾以18A工藝加至強處理器的持續迭代，均在試圖抓住這一窗口。

對雲計算廠商和AI應用開發者而言，晶片選項的增加意味著更精細化的成本優化空間。从通用GPU到定制ASIC，从CPU推理到GPU加速，硬體選型將越來越取決於具體工作負載的特徵——模型規模、延遲要求、並發量、成本預算。

AI推理的算力需求正在以超過訓練的速度增長。這場從訓練到推理的算力重心轉移，正在重塑從晶片設計到數據中心架構的整個產業鏈條。GPU不會失去它的位置，但它也不再是唯一的答案。

查看原文

AI 推理時代真的來了？GPU、CPU 與 ASIC 的三極算力重構

CPU何以重返舞台中央

GPU的護城河與推理場景的挑戰

CPU廠商的推理反擊戰

ASIC與專用晶片：第三條路線的崛起

成本結構與推理經濟學的重塑

結語

熱門話題

我的Gate交易時刻

Gate直通韓股股票

預測世界盃法國VS伊拉克

TradFiCFD黃金大師賽

Gate最新儲備金證明

已置頂