Nvidia công bố chi tiết chi phí của Blackwell: GPU đắt gấp đôi, mỗi token rẻ hơn 35 lần

robot
Đang tạo bản tóm tắt

Theo giám sát Beating, NVIDIA đã đăng blog phân tích lựa chọn phần cứng suy luận, luận điểm cốt lõi trong một câu: Đánh giá hạ tầng suy luận nên dựa trên “chi phí mỗi token” chứ không phải “chi phí mỗi GPU mỗi giờ”. So sánh giá GPU, Blackwell đắt hơn; so sánh chi phí mỗi token, Blackwell vượt trội so với thế hệ trước.

Blog lấy DeepSeek-R1 (mô hình suy luận MoE) làm đối tượng thử nghiệm, so sánh Blackwell (GB300 NVL72) với Hopper thế hệ trước (HGX H200). Theo giá thuê trên thị trường đám mây tham khảo, Blackwell mỗi GPU mỗi giờ là 2.65 USD, đắt hơn Hopper 1.41 USD gần gấp đôi, nhưng sản lượng token mỗi GPU mỗi giây từ 90 tăng lên 6000, với tốc độ xử lý gấp 65 lần, chi phí mỗi triệu token giảm từ 4.20 USD xuống còn 0.12 USD. Sản lượng token trên mỗi megawatt tăng gấp 50 lần.

Cần lưu ý điều kiện tiên quyết: con số 0.12 USD này dựa trên việc bật tất cả các tối ưu phần mềm như suy luận FP4 độ chính xác thấp kết hợp MTP (dự đoán nhiều token, cho phép mô hình sinh ra nhiều token cùng lúc để tăng tốc). Dữ liệu gốc của SemiAnalysis InferenceX v2 cho thấy, cùng một GB300 NVL72 chạy DeepSeek-R1, không bật MTP thì chi phí mỗi triệu token khoảng 2.35 USD, bật lên giảm còn khoảng 0.11 USD, chỉ riêng tối ưu này đã tạo ra chênh lệch 21 lần. Tất cả đều là kết quả thử nghiệm của mô hình DeepSeek-R1 đơn lẻ, các kiến trúc và quy mô mô hình khác nhau sẽ có số liệu khác nhau.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim