据动察 Beating 监测，在大规模 MoE 架构演进中，利用国产昇腾 (Ascend) 芯片训练大模型已成为构建自主可控 AI 算力的关键方向。然而，主流大模型框架多基于英伟达 CUDA 生态开发，直接移植至昇腾平台时易面临硬件队列调度不均、算力利用率低等挑战。中科大、华为与北大等联合推出编译调度框架 HyperParallel-MoE，针对昇腾 A3 独特的硬件队列进行瓦片级 (tile-level) 调控，旨在突破异构算力在并行调度上的能效瓶颈。昇腾 A3 拥有两类核心，AIC

BlockBeatNews

2026-05-25 09:36:40

据动察 Beating 監測、
大規模 MoE アーキテクチャの進化において、
国産昇腾（Ascend）チップを用いた大規模モデルの訓練は、
自主的かつ制御可能な AI 計算能力を構築するための重要な方向性となっている。
しかしながら、主流の大規模モデルフレームワークは多くが NVIDIA の CUDA エコシステムを基盤として開発されており、
昇腾プラットフォームへの直接移植時には、ハードウェアのキュー調整の不均衡や計算能力の低利用率といった課題に直面しやすい。

中国科学技術大学、華為、北京大学などが共同で、
昇腾 A3 の独特なハードウェアキューに対応したコンパイル・スケジューリングフレームワーク HyperParallel-MoE を提案し、
タイルレベル（tile-level）での調整を行うことにより、異種計算能力における並列スケジューリングのエネルギー効率のボトルネック突破を目指している。

昇腾 A3 には二種類のコアがあり、AIC は行列乗算を担当し、AIV はベクトル計算と通信を処理する。
しかし、従来の演算子の逐次スケジューリングでは、二つのコアは交互に動作し、交代でアイドル状態となる。
実測データによると、256ノードのクラスターで 671B の DeepSeek スタイルの大規模モデルを動作させた場合、
AIC の利用率はわずか67%、さらに39%の専門ルーティング通信遅延が重要な計算パス上に露出している。

HyperParallel-MoE のコアの変更点は三つある。
第一に、AIV駆動の片側書き込み原語を設計し、データタイル到達と同時に計算をトリガーし、バッチの到着待ちを不要にした。
第二に、依存感知型のタイルタスク生成を導入し、通信と計算の演算子を統一抽象化した。
第三に、静的スケジューラを用いて事前にタスクシーケンスを生成し、単一のカーネル内で二つのコアを並列駆動し、高速L2キャッシュを利用して中間結果を共有し、
HBMの遅いメモリへの書き戻しと読み込みの遅延を削減した。

テスト結果によると、64ノードのバランスルーティング下で、専門計算を担当するコアモジュール（MoE-FFN）の遅延は約36%短縮され、
データ処理速度は最大58%向上（速度向上は1.49倍から1.58倍に）した。
システム全体のエンドツーエンドの訓練速度も、1ステップあたり8%から9%向上した。
これらの結果は、昇腾の実際のエネルギー効率はハードウェア仕様だけでなく、
コンパイラとランタイムがAIC/AIVコアをいかに効率的にスケジューリングできるかにかかっていることを示している。

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

10 いいね

報酬
10
7
リポスト
共有

コメントを追加

GateUser-76dcd439

· 22分前

国産チップはついにMoE向けの最適化フレームワークを持つようになった。HyperParallel-MoEというタイルレベルのスケジューリングのアイデアはかなり詳細だ。

原文表示返信0

TreatEarningsAsSnacks

· 4時間前

CUDAエコシステムの堀は深すぎるため、国産代替は単純に移すことができず、こうした基礎層の再構築が必要だ。

原文表示返信0

CapitalFlowInATeacup

· 4時間前

自主可控はスローガンではなく、このように一行一行のコードから掘り出されたものである

原文表示返信0

LiquidityLifeguard

· 4時間前

北京大学はシステムを担当し、中国科学技術大学はアーキテクチャを担当し、華為は実現し、産学研のこのモデルが本来の形だ

原文表示返信0

BridgeSideEyes

· 4時間前

計算能力の利用率の低さは長い間昇腾の課題でしたが、今回はどれだけ改善できましたか？データはありますか？

原文表示返信0

GateUser-de0b9e3b

· 4時間前

ファーウェイはコンパイラに本気を出している。MindSporeからこのフレームワークまで、エコシステムが徐々に補完されている。

原文表示返信0

GateUser-26374bb4

· 4時間前

MoEはもともとスケジューリングに依存しているため、国産チップが追いつくにはこのような細部にこだわる必要がある

原文表示返信0

人気の話題
もっと見る
#
StockTradingChallengeUpTo17000U
15.92M 人気度
#
USIranDraftDeal
285.97K 人気度
#
IsraelStrikesIranBTCPlunges
49.15K 人気度
#
2gGoldEvery10Minutes
3.04M 人気度
#
HYPEMarketCapSurpassesDOGE
12.64M 人気度

ピン留め

サイトマップ

Huaweiと中国科学技術大学が協力してNVIDIAの独占を突破、昇腾A3が大規模モデルの専門計算速度を58％向上

人気の話題

StockTradingChallengeUpTo17000U

USIranDraftDeal

IsraelStrikesIranBTCPlunges

2gGoldEvery10Minutes

HYPEMarketCapSurpassesDOGE

ピン留め