廣場
最新
熱門
新聞
我的主頁
發布
华为中科大联手突破英伟达垄断,昇腾A3跑大模型专家计算提速58%
区块律动
2026-05-25 09:36:40
關注
据动察 Beating 监测,在大规模 MoE 架构演进中,利用国产昇腾 (Ascend) 芯片训练大模型已成为构建自主可控 AI 算力的关键方向。然而,主流大模型框架多基于英伟达 CUDA 生态开发,直接移植至昇腾平台时易面临硬件队列调度不均、算力利用率低等挑战。中科大、华为与北大等联合推出编译调度框架 HyperParallel-MoE,针对昇腾 A3 独特的硬件队列进行瓦片级 (tile-level) 调控,旨在突破异构算力在并行调度上的能效瓶颈。
昇腾 A3 拥有两类核心,AIC 负责矩阵乘法,AIV 则处理向量计算与通信。但在传统的算子串行调度下,两类核心只能交替工作、轮流闲置。实测数据显示,在 256 节点集群跑 671B 的 DeepSeek 风格大模型时,AIC 利用率仅为 67%,且 39% 的专家路由通信延迟暴露在关键计算路径上。
HyperParallel-MoE 核心改动有三项。第一,设计 AIV 驱动的单边写原语,使数据瓦片到达即触发计算,无需等待整批到齐。第二,引入依赖感知瓦片任务生成,将通信与计算算子统一抽象。第三,以静态调度器预生成任务序列,在单个 kernel 内驱动两类核心并行,并利用高速 L2 缓存共享中间结果,减少回写与读取 HBM 慢速内存的延迟。
测试显示,在 64 节点平衡路由下,负责专家计算的核心模块(MoE-FFN)延迟缩短约 36%,相当于数据处理速度最高提升了 58%(即提速 1.49 至 1.58 倍)。在整机端到端运行中,单步训练速度也同步提升了 8% 至 9%。这说明,昇腾的实际能效不只取决于硬件规格,更在编译器与运行时能否把 AIC/AIV 核心高效调度起来。
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見
聲明
。
15人按讚了這條動態
打賞
15
9
轉發
分享
回覆
請輸入回覆內容
請輸入回覆內容
回覆
GateUser-7cb48814
· 05-25 20:44
昇腾A3的双核心架构调起来确实麻烦,tile-level调控算是打到点子上了
回復
0
MEV Tea Time
· 05-25 17:50
中科大+華為+北大,這組合含金量可以,期待開源
查看原文
回復
0
GateUser-76dcd439
· 05-25 13:55
國產芯片終於有專門針對MoE的優化框架了,HyperParallel-MoE這個瓦片級調度思路挺細
查看原文
回復
0
把收益当零食
· 05-25 10:10
CUDA 生態護城河太深,國產替代不能硬搬,得這種底層重構
查看原文
回復
0
茶杯里的资金流
· 05-25 09:59
自主可控不是口號,是這種一行行代碼抠出來的
查看原文
回復
0
Liquidity Lifeguard
· 05-25 09:50
北大做系統,中科大做架構,華為落地,產學研這模式才對味
查看原文
回復
0
BridgeSideEyes
· 05-25 09:48
算力利用率低一直是昇腾的痛点,这次能提多少?有数据吗
回復
0
GateUser-de0b9e3b
· 05-25 09:44
華為搞編譯器是認真的,從MindSpore到這套框架,生態在慢慢補充
查看原文
回復
0
GateUser-26374bb4
· 05-25 09:44
MoE 本來就吃調度,國產芯片想追上必須在這種細節下功夫
查看原文
回復
0
查看更多
熱門話題
查看更多
#
0成本拿2股SK海力士
159.64萬 熱度
#
美光市值超越Meta躋身全美前十
33.18萬 熱度
#
哥倫比亞VS葡萄牙
35.03萬 熱度
#
美國5月PCE通膨升至4.1%創三年新高
58.51萬 熱度
#
USD1鏈上質押享年化9.48%
99.66萬 熱度
已置頂
網站地圖
华为中科大联手突破英伟达垄断,昇腾A3跑大模型专家计算提速58%
昇腾 A3 拥有两类核心,AIC 负责矩阵乘法,AIV 则处理向量计算与通信。但在传统的算子串行调度下,两类核心只能交替工作、轮流闲置。实测数据显示,在 256 节点集群跑 671B 的 DeepSeek 风格大模型时,AIC 利用率仅为 67%,且 39% 的专家路由通信延迟暴露在关键计算路径上。
HyperParallel-MoE 核心改动有三项。第一,设计 AIV 驱动的单边写原语,使数据瓦片到达即触发计算,无需等待整批到齐。第二,引入依赖感知瓦片任务生成,将通信与计算算子统一抽象。第三,以静态调度器预生成任务序列,在单个 kernel 内驱动两类核心并行,并利用高速 L2 缓存共享中间结果,减少回写与读取 HBM 慢速内存的延迟。
测试显示,在 64 节点平衡路由下,负责专家计算的核心模块(MoE-FFN)延迟缩短约 36%,相当于数据处理速度最高提升了 58%(即提速 1.49 至 1.58 倍)。在整机端到端运行中,单步训练速度也同步提升了 8% 至 9%。这说明,昇腾的实际能效不只取决于硬件规格,更在编译器与运行时能否把 AIC/AIV 核心高效调度起来。