据动察 Beating 监测，在大规模 MoE 架构演进中，利用国产昇腾 (Ascend) 芯片训练大模型已成为构建自主可控 AI 算力的关键方向。然而，主流大模型框架多基于英伟达 CUDA 生态开发，直接移植至昇腾平台时易面临硬件队列调度不均、算力利用率低等挑战。中科大、华为与北大等联合推出编译调度框架 HyperParallel-MoE，针对昇腾 A3 独特的硬件队列进行瓦片级 (tile-level) 调控，旨在突破异构算力在并行调度上的能效瓶颈。

昇腾 A3 拥有两类核心，AIC 负责矩阵乘法，AIV 则处理向量计算与通信。但在传统的算子串行调度下，两类核心只能交替工作、轮流闲置。实测数据显示，在 256 节点集群跑 671B 的 DeepSeek 风格大模型时，AIC 利用率仅为 67%，且 39% 的专家路由通信延迟暴露在关键计算路径上。

HyperParallel-MoE 核心改动有三项。第一，设计 AIV 驱动的单边写原语，使数据瓦片到达即触发计算，无需等待整批到齐。第二，引入依赖感知瓦片任务生成，将通信与计算算子统一抽象。第三，以静态调度器预生成任务序列，在单个 kernel 内驱动两类核心并行，并利用高速 L2 缓存共享中间结果，减少回写与读取 HBM 慢速内存的延迟。

测试显示，在 64 节点平衡路由下，负责专家计算的核心模块（MoE-FFN）延迟缩短约 36%，相当于数据处理速度最高提升了 58%（即提速 1.49 至 1.58 倍）。在整机端到端运行中，单步训练速度也同步提升了 8% 至 9%。这说明，昇腾的实际能效不只取决于硬件规格，更在编译器与运行时能否把 AIC/AIV 核心高效调度起来。

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

15人按讚了這條動態

打賞
15
9
轉發
分享

回覆

請輸入回覆內容

GateUser-7cb48814

· 05-25 20:44

昇腾A3的双核心架构调起来确实麻烦，tile-level调控算是打到点子上了

回復0

MEV Tea Time

· 05-25 17:50

中科大+華為+北大，這組合含金量可以，期待開源

查看原文回復0

GateUser-76dcd439

· 05-25 13:55

國產芯片終於有專門針對MoE的優化框架了，HyperParallel-MoE這個瓦片級調度思路挺細

查看原文回復0

把收益当零食

· 05-25 10:10

CUDA 生態護城河太深，國產替代不能硬搬，得這種底層重構

查看原文回復0

茶杯里的资金流

· 05-25 09:59

自主可控不是口號，是這種一行行代碼抠出來的

查看原文回復0

Liquidity Lifeguard

· 05-25 09:50

北大做系統，中科大做架構，華為落地，產學研這模式才對味

查看原文回復0

BridgeSideEyes

· 05-25 09:48

算力利用率低一直是昇腾的痛点，这次能提多少？有数据吗

回復0

GateUser-de0b9e3b

· 05-25 09:44

華為搞編譯器是認真的，從MindSpore到這套框架，生態在慢慢補充

查看原文回復0

GateUser-26374bb4

· 05-25 09:44

MoE 本來就吃調度，國產芯片想追上必須在這種細節下功夫

查看原文回復0

已置頂

华为中科大联手突破英伟达垄断，昇腾A3跑大模型专家计算提速58%

熱門話題

0成本拿2股SK海力士

美光市值超越Meta躋身全美前十

哥倫比亞VS葡萄牙

美國5月PCE通膨升至4.1%創三年新高

USD1鏈上質押享年化9.48%

已置頂