📢 Gate 广场认证创作者招募中,入驻瓜分每月 $20,000 创作大奖!
📌 参与方式
站内创作者: 成功申请“创作者认证徽章”即可自动参与。
新入驻创作者: 需填写入驻表单申请 👉️ https://www.gate.com/questionnaire/7698
🎁 创作者福利
1️⃣ 首帖见面礼: 新入驻/回归创作者发首帖,即得 $50U 奖励!
2️⃣ 周度发帖奖: 完成周发帖任务,轻松瓜分 $10,000 奖池!
3️⃣ 月度创作奖: 赛道更多样,完成月度任务瓜分 $1,600 GT 奖池!
4️⃣ 专属推广任务:进入专属创作者社群,享专属推广任务和节日礼包!
让您的优质内容被更多人看到,携手共建高质量创作者社区!
活动细节:https://www.gate.com/announcements/article/51536
英伟达发Blackwell成本明细:GPU贵一倍,每token反便宜35倍
博客以 DeepSeek-R1(MoE 推理模型)为测试对象,对比 Blackwell(GB300 NVL72)与上一代 Hopper(HGX H200)。按云市场租赁参考价,Blackwell 每 GPU 每小时 2.65 美元,比 Hopper 的 1.41 美元贵近一倍,但单 GPU 每秒 token 产出从 90 跳到 6000,65 倍的吞吐提升分摊下来,每百万 token 成本从 4.20 美元降到 0.12 美元。每兆瓦 token 产出提升 50 倍。
需要注意的前提:0.12 美元这个数字建立在 FP4 低精度推理加 MTP(多 token 预测,让模型一次生成多个 token 来提速)等多项软件优化全部开启的基础上。SemiAnalysis InferenceX v2 原始数据显示,同样的 GB300 NVL72 跑 DeepSeek-R1,不开 MTP 时每百万 token 成本约 2.35 美元,开启后降至约 0.11 美元,单这一项优化就拉开 21 倍差距。以上均为 DeepSeek-R1 单一模型的测试结果,不同模型架构和规模下数字会不同。