NVIDIAはブラックウェルのコスト内訳を公開:GPUコストは2倍、トークンコストは35倍安い

ドンチャビーティングの監視によると、NVIDIAのブログは推論ハードウェアの選択について分析しており、その核心的な議論は一文に要約されている:推論インフラの評価は「GPUあたりのコスト」ではなく「トークンあたりのコスト」に焦点を当てるべきである。GPUの価格に関しては、Blackwellはより高価だが、トークンコストを比較すると、Blackwellは前世代を大きく上回っている。ブログはDeepSeek-R1(MoE推論モデル)をテスト対象とし、Blackwell(GB300 NVL72)と前世代のHopper(HGX H200)を比較している。クラウド市場のレンタル参考価格に基づくと、BlackwellのコストはGPUあたり1時間2.65ドルで、Hopperの1.41ドルのほぼ2倍だが、GPUあたりの秒間トークン出力は90から6000に跳ね上がり、スループットは65倍に増加している。その結果、100万トークンあたりのコストは4.20ドルから0.12ドルに下がる。メガワットあたりのトークン出力は50倍増加している。重要なのは、0.12ドルの数字は、FP4低精度推論やMTP(マルチトークン予測、モデルが複数のトークンを一度に生成できるようにする機能)を含む複数のソフトウェア最適化が完全に有効化されている場合に基づいていることである。SemiAnalysisのInferenceX v2の元データによると、同じGB300 NVL72がDeepSeek-R1を実行し、MTPを使用しない場合のコストは約2.35ドル/百万トークンであり、MTPを有効にすると約0.11ドルに下がり、この単一の最適化による差は21倍に及ぶ。上記すべての結果はDeepSeek-R1単一モデルのテストから得られたものであり、異なるモデルアーキテクチャやスケールでは数値が変動する可能性がある。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン