NVIDIA Tiết lộ Phân tích Chi phí Blackwell: Chi phí GPU Gấp đôi, Chi phí Token Rẻ hơn 35 lần

Theo giám sát của Dongcha Beating, blog của NVIDIA phân tích việc lựa chọn phần cứng suy luận, với luận điểm chính được tóm tắt trong một câu: đánh giá hạ tầng suy luận nên tập trung vào ‘chi phí trên mỗi token’ thay vì ‘chi phí trên mỗi GPU mỗi giờ.’ Về giá GPU, Blackwell đắt hơn; tuy nhiên, khi so sánh chi phí token, Blackwell vượt trội rõ rệt so với thế hệ trước. Blog sử dụng DeepSeek-R1 (một mô hình suy luận MoE) làm đối tượng thử nghiệm, so sánh Blackwell (GB300 NVL72) với thế hệ trước Hopper (HGX H200). Dựa trên giá thuê thị trường đám mây tham khảo, Blackwell có giá 2,65 đô la mỗi GPU mỗi giờ, gần gấp đôi Hopper là 1,41 đô la, nhưng sản lượng token mỗi giây mỗi GPU tăng từ 90 lên 6000, dẫn đến tăng throughput gấp 65 lần. Do đó, chi phí trên mỗi triệu token giảm từ 4,20 đô la xuống còn 0,12 đô la. Sản lượng token trên mỗi megawatt tăng gấp 50 lần. Cần lưu ý rằng con số 0,12 đô la này dựa trên việc kích hoạt đầy đủ nhiều tối ưu phần mềm, bao gồm suy luận FP4 độ chính xác thấp và MTP (dự đoán đa token, cho phép mô hình tạo ra nhiều token cùng lúc để tăng tốc). Dữ liệu gốc từ SemiAnalysis InferenceX v2 cho thấy cùng một GB300 NVL72 chạy DeepSeek-R1, không có MTP, có chi phí khoảng 2,35 đô la trên mỗi triệu token, giảm xuống còn khoảng 0,11 đô la khi bật MTP, làm nổi bật sự khác biệt 21 lần do tối ưu hóa này. Tất cả các kết quả trên đều từ thử nghiệm mô hình đơn DeepSeek-R1, và các con số có thể thay đổi dưới các kiến trúc và quy mô mô hình khác nhau.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim