币界网消息,英伟达发布了关于其Blackwell系列的成本明细,指出GPU成本比上一代贵一倍,但每token成本却便宜35倍。 英伟达のブログによると、推論インフラを評価する際には「1トークンあたりのコスト」に注目すべきであり、「1GPUあたりの時間あたりコスト」ではない。 deepseek-r1(MOE推論モデル)をテスト対象とし、Blackwell(GB300 NVL72)と前世代のHopper(HGX H200)を比較した。 クラウド市場のレンタル参考価格によると、Blackwellは1GPUあたり1時間2.65ドルで、Hopperの1.41ドルよりほぼ倍高いが、 1GPUあたりの秒間トークン生成量は90から6000に増加し、65倍の向上を示す。 分散後の1百万トークンあたりのコストは4.20ドルから0.12ドルに低下した。 ただし、0.12ドルのコストは、FP4低精度推論や複数トークン予測などのソフトウェア最適化が有効になっている前提で算出されたものである。
NVIDIAがBlackwellのコスト詳細を発表:GPUは2倍高く、トークンあたりのコストは35倍安い
币界网消息,英伟达发布了关于其Blackwell系列的成本明细,指出GPU成本比上一代贵一倍,但每token成本却便宜35倍。
英伟达のブログによると、推論インフラを評価する際には「1トークンあたりのコスト」に注目すべきであり、「1GPUあたりの時間あたりコスト」ではない。
deepseek-r1(MOE推論モデル)をテスト対象とし、Blackwell(GB300 NVL72)と前世代のHopper(HGX H200)を比較した。
クラウド市場のレンタル参考価格によると、Blackwellは1GPUあたり1時間2.65ドルで、Hopperの1.41ドルよりほぼ倍高いが、
1GPUあたりの秒間トークン生成量は90から6000に増加し、65倍の向上を示す。
分散後の1百万トークンあたりのコストは4.20ドルから0.12ドルに低下した。
ただし、0.12ドルのコストは、FP4低精度推論や複数トークン予測などのソフトウェア最適化が有効になっている前提で算出されたものである。