Huawei Chip Có Chậm Trễ Ra Mắt DeepSeek V4? Cùng Một Nhân Nhân Đạt Gần Gấp Đôi Tốc Độ Trên NVIDIA Ascend

Theo giám sát của Dongcha Beating, trước khi phát hành DeepSeek V4, đã có nhiều suy đoán trong cộng đồng rằng việc ra mắt bị trì hoãn do gặp khó khăn trong việc thích nghi mô hình từ NVIDIA sang nền tảng Huawei Ascend. Mặc dù báo cáo kỹ thuật V4 không trực tiếp đề cập đến tin đồn này, nhưng dữ liệu hiệu suất tiết lộ lại hoàn toàn phản bác lại nó. Báo cáo cho thấy rằng Kế hoạch Phân chia Chuyên gia Chi tiết (Kế hoạch EP Chi tiết) đã được triển khai và xác nhận thành công trên cả GPU NVIDIA và NPU Huawei Ascend, đạt tốc độ tăng từ 1,50 đến 1,73 lần cho các tải trọng suy luận thông thường, và lên tới 1,96 lần cho các kịch bản nhạy cảm về độ trễ như RL rollout và dịch vụ tác nhân tốc độ cao. Nhóm cũng đã mở mã nguồn kernel MegaMoE phiên bản CUDA như một phần của DeepGEMM. Nói cách khác, V4 đã thể hiện hiệu quả gần như giới hạn lý thuyết trên cả hai nền tảng phần cứng, và việc thích nghi đa nền tảng không gây ra mất mát hiệu suất.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim