Theo giám sát Beating, trong quá trình tiến hóa của kiến trúc MoE quy mô lớn, việc sử dụng chip Ascend nội địa để huấn luyện mô hình lớn đã trở thành hướng đi chủ chốt để xây dựng năng lực AI tự chủ và kiểm soát được. Tuy nhiên, hầu hết các khung mô hình lớn chủ đạo dựa trên hệ sinh thái CUDA của Nvidia, khi chuyển trực tiếp sang nền tảng Ascend thường gặp phải các thách thức như phân phối hàng đợi phần cứng không đều, hiệu suất sử dụng tính toán thấp. Trung Quốc Đại học Khoa học và Công nghệ, Huawei và Đại học Bắc Kinh đã hợp tác ra mắt khung biên dịch và điều phối HyperParallel-MoE, nhằm điều chỉnh cấp tile (mảnh) cho hàng đợi phần cứng đặc thù của Ascend A3, với mục tiêu vượt qua giới hạn về hiệu quả năng lượng trong điều phối song song của các năng lực tính toán dị thể.

Ascend A3 có hai loại lõi, AIC chịu trách nhiệm nhân ma trận, còn AIV xử lý tính toán vector và truyền thông. Tuy nhiên, trong điều phối các phép toán theo chuỗi truyền thống, hai loại lõi chỉ có thể hoạt động luân phiên, nghỉ xen kẽ. Dữ liệu thực nghiệm cho thấy, khi chạy mô hình lớn kiểu DeepSeek 671B trên cụm 256 nút, tỷ lệ sử dụng AIC chỉ đạt 67%, và 39% độ trễ truyền thông của các tuyến đường chuyên gia bị lộ diện trên đường tính toán quan trọng.

Ba điểm thay đổi chính của HyperParallel-MoE là: Thứ nhất, thiết kế nguyên thủy ghi đơn bên do AIV điều khiển, khiến dữ liệu mảnh đến là kích hoạt tính toán ngay, không cần chờ toàn bộ dữ liệu đến đủ. Thứ hai, giới thiệu sinh nhiệm vụ dựa trên cảm nhận phụ thuộc, hợp nhất truyền thông và phép tính thành một trừu tượng chung. Thứ ba, sử dụng trình điều phối tĩnh để tiền tạo chuỗi nhiệm vụ, điều khiển song song hai loại lõi trong cùng một kernel, đồng thời tận dụng bộ đệm L2 tốc độ cao chia sẻ kết quả trung gian, giảm thiểu độ trễ ghi và đọc bộ nhớ chậm HBM.

Kết quả thử nghiệm cho thấy, dưới điều phối cân bằng 64 nút, mô-đun lõi chịu trách nhiệm tính toán chuyên gia (MoE-FFN) giảm độ trễ khoảng 36%, tương đương tốc độ xử lý dữ liệu tăng tối đa 58% (tăng tốc từ 1.49 lên 1.58 lần). Trong quá trình chạy end-to-end toàn hệ thống, tốc độ huấn luyện từng bước cũng tăng đồng bộ từ 8% đến 9%. Điều này cho thấy, hiệu quả năng lượng thực tế của Ascend không chỉ phụ thuộc vào thông số phần cứng, mà còn ở khả năng của trình biên dịch và runtime trong việc điều phối hiệu quả các lõi AIC/AIV.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

11 thích

Phần thưởng
11
7
Đăng lại
Retweed

Bình luận

Thêm một bình luận

GateUser-76dcd439

· 2giờ trước

Vi xử lý nội địa cuối cùng đã có khung tối ưu hóa dành riêng cho MoE, ý tưởng lập lịch cấp mảnh HyperParallel-MoE này khá chi tiết

Xem bản gốcTrả lời0

TreatEarningsAsSnacks

· 6giờ trước

Hào quang của hệ sinh thái CUDA quá sâu, thay thế nội địa không thể chỉ sao chép cứng, cần phải tái cấu trúc nền tảng như thế này

Xem bản gốcTrả lời0

CapitalFlowInATeacup

· 6giờ trước

Tự chủ và kiểm soát không phải là khẩu hiệu, mà là những dòng mã được viết ra từng dòng một

Xem bản gốcTrả lời0

LiquidityLifeguard

· 6giờ trước

Đại học Bắc Kinh làm hệ thống, Đại học Trung Quốc xây dựng kiến trúc, Huawei triển khai, mô hình kết hợp sản xuất, học thuật và nghiên cứu mới đúng chuẩn.

Xem bản gốcTrả lời0

BridgeSideEyes

· 6giờ trước

Hiệu suất sử dụng sức mạnh tính toán thấp luôn là điểm đau của Ascend, lần này có thể nâng lên bao nhiêu? Có dữ liệu không?

Xem bản gốcTrả lời0

GateUser-de0b9e3b

· 6giờ trước

Huawei đang nghiêm túc phát triển trình biên dịch, từ MindSpore đến bộ khung này, hệ sinh thái đang dần hoàn thiện

Xem bản gốcTrả lời0

GateUser-26374bb4

· 6giờ trước

MoE vốn đã tiêu thụ điều phối, chip nội địa muốn bắt kịp phải nỗ lực trong những chi tiết như thế này

Xem bản gốcTrả lời0

Chủ đề thịnh hành
Xem thêm
#
StockTradingChallengeUpTo17000U
15.93M Phổ biến
#
USIranDraftDeal
288.55K Phổ biến
#
IsraelStrikesIranBTCPlunges
49.18K Phổ biến
#
2gGoldEvery10Minutes
3.03M Phổ biến
#
HYPEMarketCapSurpassesDOGE
12.64M Phổ biến

Đã ghim

sơ đồ trang web

Huawei and USTC jointly break NVIDIA's monopoly, Ascend A3 accelerates large model expert computation speed by 58%

Chủ đề thịnh hành

StockTradingChallengeUpTo17000U

USIranDraftDeal

IsraelStrikesIranBTCPlunges

2gGoldEvery10Minutes

HYPEMarketCapSurpassesDOGE

Đã ghim