AI越便宜,晶片越貴

6月30日,Anthropic 發布了 Claude Sonnet 5。

這是一款中端模型,Sonnet 系列裡「最能幹活」的。代理能力測試 SWE-bench Pro 上跑出 63.2 分——離旗艦 Opus 4.8 的 69.2 分只差 6 分。另一個維度上,研究生級推理測試 GPQA-AAA v2 上,Sonnet 5 反倒壓了 Opus 4.8 一頭。

定價更關鍵。優惠期內每百萬輸入 token 收 2 美元,輸出 10 美元。Opus 4.8 對應的價格是 5 美元和 25 美元——Sonnet 5 用四到六成的價格,跑出了旗艦九成以上的能力。

這條新聞可以有兩種讀法。

第一種:AI 又變便宜了。成本下降利好所有人,Chatbot 戰爭繼續,模型廠商卷生卷死。

第二種——也是市場正在定價的——模型越便宜,算力和儲存反而越貴。

Claude Sonnet 5 發布當天,美國半導體指數漲近 4%。過去三年的 AI 敘事裡有一條明線:推理效率會幹掉晶片需求。但這個判斷在每一個數據節點上都錯了。

降價:三年降了一千倍

先看降價這條線。

2022 年,GPT-4 等級 API 調用成本約每千 token 0.03 美元。到 2025 年,同等性能等級模型的價格——按史丹佛 AI Index Report 的口徑——降了約 280 倍。加上開源和效率提升的綜合效應,業界公認的降幅是 1000 倍。

降了不只一種模型,是每一家都在降。

Anthropic 這次 Sonnet 5 對標 Opus 4.8 的能力密度,定價只有四到六成。Google 的 Gemini Omni Flash 影片生成每秒 0.10 美元,Nano Banana 2 Lite 圖像模型 4 秒出圖、每千張只要 0.034 美元——是前代的一半。DeepSeek-V4-Pro 把百萬 token 輸入打到了 0.035 美元的水平。

降價不止發生在定價表上。

6 月 24 日,The Information 報導 OpenAI 在內部找到了一項純軟體優化技術——某個運算環節的 GPU 需求被砍掉了一半不止,專用 GPU 池子從幾千台驟降到幾百台。同月,Meta 提出了 Vistara 方案:把退役伺服器拆下來的 DDR4 記憶體透過自研 CXL 晶片重新接上,和 DDR5 按 3:1 搭配,推理伺服器成本壓降 25%。

到了 6 月 30 日,階躍開源了推測解碼技術 JetSpec——大模型推理速度可以提升近 10 倍。換算下來,同樣的 token 輸出量,需要的 GPU 數可以陡降一個數量級。

如果 AI 是一個傳統的成本-需求函數,這些訊號應該指向一件事:未來需要的晶片變少了。

華爾街是這麼恐懼的。

1 月 DeepSeek 發布 R1 的那個週末,AI 基礎設施股經歷了近年最猛烈的拋售。AI 雲公司 Nebius 股價暴跌 40%。故事線很簡單:中國開源模型用 0.1 美元賣 token,美國公司花 2 美元,算力需求必然坍縮。

爆炸:總支出反漲 320%

但實際發生的事情完全相反。

Nebius 聯合創始人 Roman Chernin 後來回憶:DeepSeek 引發恐慌的那個星期,「可能是我們銷售最好的一週」。公司採購部門看到成本驟降後的第一反應不是砍預算,而是終於可以大規模跑推理了。

2024 年,全球企業的生成式 AI 總支出約 115 億美元。2025 年,這個數字飆升到了 370 億美元——一年漲了 320%。按 Menlo Ventures 的企業調研,中位企業在 2025 年運行著「數十個」AI 應用,而 2023 年這個數字是 1 到 2 個。

各個維度的數據都在同一條曲線上:

Uber 在 2026 年 4 月就已經燒完了全年的 AI 預算。AT&T 目前日處理 270 億 token——18 個月前,這個數字是 8 億。一家美國大型醫保公司,月 token 消耗從 300 萬一口氣衝到了 1.5 億以上。

拆開看,增長來自三個方向的疊加。

第一是應用擴散。每家企業的行銷部用了 3 個 AI 工具,銷售部 4 個,客服部 2 個,加上法務、HR、財務——從 2 個到幾十個,這是數量級的跳躍。

第二是單應用深度。以客服 AI 為例:2023 年日交互量約 500 次,每次約 800 個 token,做完對話就結束。到 2025 年,日交互 15000 次,每次約 4500 個 token,每次交互還要再觸發 3 到 5 次後續推理——情感分析、升級預測、品質評分——全部疊加在同一個入口上。

第三是模型本身的複雜度升級。從 7B 參數的單輪模型,升級到 70B 以上的多步推理代理,每一輪內部推理所消耗的 token 是線性交互的幾十倍到上百倍。

換句話說,token 成本降到了千分之一,市場用掉的 token 數漲了數萬倍。乘起來的淨效應只有一個方向:支出爆炸。

Token 消耗量每兩個月翻一倍——多條獨立線索拼出了同一個數字。把這條指數曲線畫到 2027 年,企業 AI 年支出破千億美元是算術問題,不是預測問題。

傳導:儲存漲了六倍,晶片基建指向 7.6 兆

降價刺激出的需求沒有停留在軟體層。

記憶體價格的漲幅,是 AI 需求從模型層向硬體層傳導最直接的信號。

2025 年三季度起,DRAM 和 NAND Flash 現貨價格累計漲幅均超過 300%。DDR5 顆粒在單月內漲幅一度突破 90%。進入 2026 年,漲價不但沒停,反而加速了。

一季度 DRAM 合約價漲幅從預期的 55%-60% 被上修到 90%-95%;NAND 從 33%-38% 上修到 55%-60%。二季度 TrendForce 的預測是 DRAM 再漲 58%-63%,NAND 再漲 70%-75%。

以消費級產品為錨:宏碁掠奪者 32G DDR5 6000 套條,2025 年 10 月底價格還在 1300 元,到 2026 年 1 月已經飆到 2700 元。三個月翻倍,放在消費品市場上極其罕見。

三星儲存業務在 2025 年四季度錄得單季營業利潤歷史新高——突破 20 兆韓元、約合人民幣 962 億元。而這一年多的漲勢最根本的推力並非來自手機或 PC 的消費級換代,而是 AI 數據中心對 HBM、企業級 SSD、高密度 DRAM 的巨量採購。

高盛 5 月的一份報告把這筆帳算到了極致。

報告預測,2026 年到 2031 年全球 AI 基礎設施累計資本支出約 7.6 兆美元。2026 年單年 7650 億美元,到 2031 年攀升至 1.6 兆。其中,單顆基準 GPU(基於 NVIDIA VR200 Rubin)按 8.05 萬美元計算,NVIDIA 佔各期總算力支出的 75%。

高盛在報告裡還追問了一個關鍵問題:如果 ASIC(專用晶片)大量替代 GPU,是否能削減總需求?

答案是分情況的。如果需求缺乏彈性——企業的 AI 算力需求是固定的——ASIC 替代可以直接降低總資本需求。但如果需求有彈性——算力越便宜就買得越多——晶片組合的改變主要重塑的是利潤在不同供應商之間的分配,而不是總支出規模。

高盛的基準情景選的是後者。

美股價格也在往同一個方向走。閃迪自年初以來漲了 857%,Bernstein 在 6 月 30 日的報告中將目標價上調至 3000 美元。AMD 一天漲 7% 創歷史新高。做 GPU 的、做儲存的、做封裝的、做數據中心設備的——全部在新高附近。

Edgen.tech 在 6 月 11 日的綜述文章裡引用的這個數字最有衝擊力:記憶體晶片價格在過去一年裡漲了六倍。

「週期性回升」這個標籤貼不上去。漲了六倍的東西,背後是整個經濟體系的需求在重新定價 AI 的物理基礎設施。

根源:Jevons 在 1865 年就已經回答過

威廉·史坦利·傑文斯在 1865 年寫了一本書叫《煤炭問題》。

他的核心觀察是:瓦特改良蒸汽機後,單位煤耗大幅下降,英國的煤炭總消費量反而不降反升。因為效率提升意味著蒸汽動力在更多行業成本可接受了——紡織、鐵路、採礦、航運——每一個新場景都創造出了原來不存在的煤炭需求。

160 年後,同樣的公式在 AI 算力上重演了。

企業算過帳。2022 年的 token 價格下,即時推理客服對話在經濟上不可行。非緊急場景不值得跑 AI。個人化內容生成只能做細分群體級別,做不到使用者級別。到了 2025 年,價格降了 1000 倍,這些「原來不存在的需求」全變成了剛需。

Nebius 的 Chernin 給了一句最直接的總結:「每一次我們讓同樣單位的智慧變得更便宜,我們不是在減少消耗,而是在增加消耗——因為同樣的預算可以解決更複雜的任務了。」

市場忽略了另一個結構性推力:毛利率的正反饋。

AI 推理的毛利率曲線在歷史上找不到對應物。一家提供 API 的公司,起步階段毛利率可能只有 10%——模型訓練貴、推理貴。但軟體優化(算子融合、量化、推測解碼)每個月都在壓推理成本,而定價調整總是慢半拍。於是毛利率從 10% 爬到 90% 的速度比任何傳統行業都要短。

毛利率驅動利潤,利潤追加採購,採購攤薄成本——正反饋迴路,沒有天花板。

「你有 DRAM 就能賣 token,沒有 DRAM 就無法賣 token。」這句話正在成為 AI 晶片需求的基本方程式。

高盛報告的兩個敏感性假設也在加深同一個判斷。晶片經濟壽命如果從 5 年縮到 3 年,替換週期加速,累計資本需求直接上台階。每晶片記憶體比預期高 25%——主要改變的是晶片堆疊內部的支出分配,對 7.6 兆總盤子的淨影響有限,但方向是同一個:錢不會少花。

終局:誰握住了算力

Fable 5 出口管制解除——6 月 12 日禁、6 月 30 日解,前後三週——給了這個悖論一個意外的注腳。

管制的理由是「國家安全風險」。解除管制跟風險消失沒關係——替代品出現了。Tulongfeng 等亞洲團隊在管制期內推出了接近 Mythos 級的模型,封鎖的威懾力迅速歸零。解禁是現實使然,跟善意無關。

這段插曲恰好卡在 AI 降本悖論的主線上:模型是可替代的。從 GPT 到 Claude 到 DeepSeek 到開源模型,沒有人能壟斷 AI 的能力本身——有人設卡,就有人繞路。

硬體不是這套邏輯。

GPU 不行。DRAM 不行。晶圓廠的建設週期以年為單位。光刻機的產能上限是固定的。高純度矽的供給彈性近乎零。這些都是物理定律,不是商業策略。軟體優化可以壓模型成本一千倍,但壓不下一個晶圓廠的建設週期一天。

**AI 模型降價的終點,如果這個悖論繼續跑下去,不指向去算力化——指向算力定價權的再集中。**不管你用的是誰的模型,token 都得跑在某人的晶片上。模型廠商卷價格的每一分錢,最後都變成了數據中心、晶圓廠和儲存產線帳簿上的收入。降本越凶,這個轉移越不可逆。

風險提示及免責條款

        市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用戶特殊的投資目標、財務狀況或需要。用戶應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。
DRAM-8.10%
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆