「Chip Huawei làm chậm DeepSeek V4 ra mắt」? Cùng một nhân hỗ trợ cả NVIDIA và Ascend còn tăng tốc gần 2 lần.

robot
Đang tạo bản tóm tắt
ME News tin tức, ngày 24 tháng 4 (UTC+8), theo giám sát của Beating, trước khi DeepSeek V4 phát hành, cộng đồng lan truyền rộng rãi một suy đoán: thời gian ra mắt V4 muộn hơn dự kiến là do mô hình gặp khó khăn trong việc thích ứng khi chuyển từ NVIDIA sang nền tảng Huawei Ascend. Báo cáo kỹ thuật V4 tuy không trực tiếp đáp lại tin đồn này, nhưng dữ liệu hiệu năng được công bố lại mâu thuẫn rõ ràng với nó. Báo cáo cho thấy, sơ đồ phân vùng chuyên gia chi tiết (Fine-Grained EP Scheme) của V4 đã được triển khai và xác minh trên cả hai nền tảng NVIDIA GPU và Huawei Ascend NPU, tăng tốc tải công việc suy luận thông thường từ 1,50 đến 1,73 lần, và tăng tốc tối đa lên đến 1,96 lần trong các tình huống nhạy cảm với độ trễ như RL rollout và dịch vụ Agent tốc độ cao. Nhóm nghiên cứu đã mã nguồn mở nhân phiên bản CUDA MegaMoE như một phần của DeepGEMM. Nói cách khác, V4 đạt hiệu suất gần giới hạn lý thuyết trên cả hai phần cứng, việc thích ứng đa nền tảng không gây suy giảm hiệu năng. (Nguồn: BlockBeats)
DEEPSEEK-2,58%
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim