Huawei and USTC jointly break NVIDIA's monopoly, Ascend A3 accelerates large model expert computation speed by 58%

Theo giám sát Beating, trong quá trình tiến hóa của kiến trúc MoE quy mô lớn, việc sử dụng chip Ascend nội địa để huấn luyện mô hình lớn đã trở thành hướng đi chủ chốt để xây dựng năng lực AI tự chủ và kiểm soát được. Tuy nhiên, hầu hết các khung mô hình lớn chủ đạo dựa trên hệ sinh thái CUDA của Nvidia, khi chuyển trực tiếp sang nền tảng Ascend thường gặp phải các thách thức như phân phối hàng đợi phần cứng không đều, hiệu suất sử dụng tính toán thấp. Trung Quốc Đại học Khoa học và Công nghệ, Huawei và Đại học Bắc Kinh đã hợp tác ra mắt khung biên dịch và điều phối HyperParallel-MoE, nhằm điều chỉnh cấp tile (mảnh) cho hàng đợi phần cứng đặc thù của Ascend A3, với mục tiêu vượt qua giới hạn về hiệu quả năng lượng trong điều phối song song của các năng lực tính toán dị thể.

Ascend A3 có hai loại lõi, AIC chịu trách nhiệm nhân ma trận, còn AIV xử lý tính toán vector và truyền thông. Tuy nhiên, trong điều phối các phép toán theo chuỗi truyền thống, hai loại lõi chỉ có thể hoạt động luân phiên, nghỉ xen kẽ. Dữ liệu thực nghiệm cho thấy, khi chạy mô hình lớn kiểu DeepSeek 671B trên cụm 256 nút, tỷ lệ sử dụng AIC chỉ đạt 67%, và 39% độ trễ truyền thông của các tuyến đường chuyên gia bị lộ diện trên đường tính toán quan trọng.

Ba điểm thay đổi chính của HyperParallel-MoE là: Thứ nhất, thiết kế nguyên thủy ghi đơn bên do AIV điều khiển, khiến dữ liệu mảnh đến là kích hoạt tính toán ngay, không cần chờ toàn bộ dữ liệu đến đủ. Thứ hai, giới thiệu sinh nhiệm vụ dựa trên cảm nhận phụ thuộc, hợp nhất truyền thông và phép tính thành một trừu tượng chung. Thứ ba, sử dụng trình điều phối tĩnh để tiền tạo chuỗi nhiệm vụ, điều khiển song song hai loại lõi trong cùng một kernel, đồng thời tận dụng bộ đệm L2 tốc độ cao chia sẻ kết quả trung gian, giảm thiểu độ trễ ghi và đọc bộ nhớ chậm HBM.

Kết quả thử nghiệm cho thấy, dưới điều phối cân bằng 64 nút, mô-đun lõi chịu trách nhiệm tính toán chuyên gia (MoE-FFN) giảm độ trễ khoảng 36%, tương đương tốc độ xử lý dữ liệu tăng tối đa 58% (tăng tốc từ 1.49 lên 1.58 lần). Trong quá trình chạy end-to-end toàn hệ thống, tốc độ huấn luyện từng bước cũng tăng đồng bộ từ 8% đến 9%. Điều này cho thấy, hiệu quả năng lượng thực tế của Ascend không chỉ phụ thuộc vào thông số phần cứng, mà còn ở khả năng của trình biên dịch và runtime trong việc điều phối hiệu quả các lõi AIC/AIV.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • 7
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
GateUser-76dcd439
· 2giờ trước
Vi xử lý nội địa cuối cùng đã có khung tối ưu hóa dành riêng cho MoE, ý tưởng lập lịch cấp mảnh HyperParallel-MoE này khá chi tiết
Xem bản gốcTrả lời0
TreatEarningsAsSnacks
· 6giờ trước
Hào quang của hệ sinh thái CUDA quá sâu, thay thế nội địa không thể chỉ sao chép cứng, cần phải tái cấu trúc nền tảng như thế này
Xem bản gốcTrả lời0
CapitalFlowInATeacup
· 6giờ trước
Tự chủ và kiểm soát không phải là khẩu hiệu, mà là những dòng mã được viết ra từng dòng một
Xem bản gốcTrả lời0
LiquidityLifeguard
· 6giờ trước
Đại học Bắc Kinh làm hệ thống, Đại học Trung Quốc xây dựng kiến trúc, Huawei triển khai, mô hình kết hợp sản xuất, học thuật và nghiên cứu mới đúng chuẩn.
Xem bản gốcTrả lời0
BridgeSideEyes
· 6giờ trước
Hiệu suất sử dụng sức mạnh tính toán thấp luôn là điểm đau của Ascend, lần này có thể nâng lên bao nhiêu? Có dữ liệu không?
Xem bản gốcTrả lời0
GateUser-de0b9e3b
· 6giờ trước
Huawei đang nghiêm túc phát triển trình biên dịch, từ MindSpore đến bộ khung này, hệ sinh thái đang dần hoàn thiện
Xem bản gốcTrả lời0
GateUser-26374bb4
· 6giờ trước
MoE vốn đã tiêu thụ điều phối, chip nội địa muốn bắt kịp phải nỗ lực trong những chi tiết như thế này
Xem bản gốcTrả lời0
  • Đã ghim