Huaweiと中国科学技術大学が協力してNVIDIAの独占を突破、昇腾A3が大規模モデルの専門計算速度を58%向上

据动察 Beating 監測、
大規模 MoE アーキテクチャの進化において、
国産昇腾(Ascend)チップを用いた大規模モデルの訓練は、
自主的かつ制御可能な AI 計算能力を構築するための重要な方向性となっている。
しかしながら、主流の大規模モデルフレームワークは多くが NVIDIA の CUDA エコシステムを基盤として開発されており、
昇腾プラットフォームへの直接移植時には、ハードウェアのキュー調整の不均衡や計算能力の低利用率といった課題に直面しやすい。

中国科学技術大学、華為、北京大学などが共同で、
昇腾 A3 の独特なハードウェアキューに対応したコンパイル・スケジューリングフレームワーク HyperParallel-MoE を提案し、
タイルレベル(tile-level)での調整を行うことにより、異種計算能力における並列スケジューリングのエネルギー効率のボトルネック突破を目指している。

昇腾 A3 には二種類のコアがあり、AIC は行列乗算を担当し、AIV はベクトル計算と通信を処理する。
しかし、従来の演算子の逐次スケジューリングでは、二つのコアは交互に動作し、交代でアイドル状態となる。
実測データによると、256ノードのクラスターで 671B の DeepSeek スタイルの大規模モデルを動作させた場合、
AIC の利用率はわずか67%、さらに39%の専門ルーティング通信遅延が重要な計算パス上に露出している。

HyperParallel-MoE のコアの変更点は三つある。
第一に、AIV駆動の片側書き込み原語を設計し、データタイル到達と同時に計算をトリガーし、バッチの到着待ちを不要にした。
第二に、依存感知型のタイルタスク生成を導入し、通信と計算の演算子を統一抽象化した。
第三に、静的スケジューラを用いて事前にタスクシーケンスを生成し、単一のカーネル内で二つのコアを並列駆動し、高速L2キャッシュを利用して中間結果を共有し、
HBMの遅いメモリへの書き戻しと読み込みの遅延を削減した。

テスト結果によると、64ノードのバランスルーティング下で、専門計算を担当するコアモジュール(MoE-FFN)の遅延は約36%短縮され、
データ処理速度は最大58%向上(速度向上は1.49倍から1.58倍に)した。
システム全体のエンドツーエンドの訓練速度も、1ステップあたり8%から9%向上した。
これらの結果は、昇腾の実際のエネルギー効率はハードウェア仕様だけでなく、
コンパイラとランタイムがAIC/AIVコアをいかに効率的にスケジューリングできるかにかかっていることを示している。
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • 7
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
GateUser-76dcd439
· 22分前
国産チップはついにMoE向けの最適化フレームワークを持つようになった。HyperParallel-MoEというタイルレベルのスケジューリングのアイデアはかなり詳細だ。
原文表示返信0
TreatEarningsAsSnacks
· 4時間前
CUDAエコシステムの堀は深すぎるため、国産代替は単純に移すことができず、こうした基礎層の再構築が必要だ。
原文表示返信0
CapitalFlowInATeacup
· 4時間前
自主可控はスローガンではなく、このように一行一行のコードから掘り出されたものである
原文表示返信0
LiquidityLifeguard
· 4時間前
北京大学はシステムを担当し、中国科学技術大学はアーキテクチャを担当し、華為は実現し、産学研のこのモデルが本来の形だ
原文表示返信0
BridgeSideEyes
· 4時間前
計算能力の利用率の低さは長い間昇腾の課題でしたが、今回はどれだけ改善できましたか?データはありますか?
原文表示返信0
GateUser-de0b9e3b
· 4時間前
ファーウェイはコンパイラに本気を出している。MindSporeからこのフレームワークまで、エコシステムが徐々に補完されている。
原文表示返信0
GateUser-26374bb4
· 4時間前
MoEはもともとスケジューリングに依存しているため、国産チップが追いつくにはこのような細部にこだわる必要がある
原文表示返信0
  • ピン留め