英偉達發Blackwell成本明細:GPU貴一倍,每token反便宜35倍

robot
摘要生成中
據動察 Beating 監測,英偉達發博客拆解推理硬件選型,核心論點一句話:評估推理基礎設施應看「每 token 成本」而非「每 GPU 每小時成本」。用 GPU 單價比,Blackwell 更貴;用 token 成本比,Blackwell 碾壓上一代。

博客以 DeepSeek-R1(MoE 推理模型)為測試對象,對比 Blackwell(GB300 NVL72)與上一代 Hopper(HGX H200)。按雲市場租賃參考價,Blackwell 每 GPU 每小時 2.65 美元,比 Hopper 的 1.41 美元貴近一倍,但單 GPU 每秒 token 產出從 90 跳到 6000,65 倍的吞吐提升分攤下來,每百萬 token 成本從 4.20 美元降到 0.12 美元。每兆瓦 token 產出提升 50 倍。

需要注意的前提:0.12 美元這個數字建立在 FP4 低精度推理加 MTP(多 token 預測,讓模型一次生成多個 token 來提速)等多項軟體優化全部開啟的基礎上。SemiAnalysis InferenceX v2 原始數據顯示,同樣的 GB300 NVL72 跑 DeepSeek-R1,不開 MTP 時每百萬 token 成本約 2.35 美元,開啟後降至約 0.11 美元,單這一項優化就拉開 21 倍差距。以上均為 DeepSeek-R1 單一模型的測試結果,不同模型架構和規模下數字會不同。
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆