据动察 Beating 監測、 大規模 MoE アーキテクチャの進化において、 国産昇腾(Ascend)チップを用いた大規模モデルの訓練は、 自主的かつ制御可能な AI 計算能力を構築するための重要な方向性となっている。 しかしながら、主流の大規模モデルフレームワークは多くが NVIDIA の CUDA エコシステムを基盤として開発されており、 昇腾プラットフォームへの直接移植時には、ハードウェアのキュー調整の不均衡や計算能力の低利用率といった課題に直面しやすい。 中国科学技術大学、華為、北京大学などが共同で、 昇腾 A3 の独特なハードウェアキューに対応したコンパイル・スケジューリングフレームワーク HyperParallel-MoE を提案し、 タイルレベル(tile-level)での調整を行うことにより、異種計算能力における並列スケジューリングのエネルギー効率のボトルネック突破を目指している。 昇腾 A3 には二種類のコアがあり、AIC は行列乗算を担当し、AIV はベクトル計算と通信を処理する。 しかし、従来の演算子の逐次スケジューリングでは、二つのコアは交互に動作し、交代でアイドル状態となる。 実測データによると、256ノードのクラスターで 671B の DeepSeek スタイルの大規模モデルを動作させた場合、 AIC の利用率はわずか67%、さらに39%の専門ルーティング通信遅延が重要な計算パス上に露出している。 HyperParallel-MoE のコアの変更点は三つある。 第一に、AIV駆動の片側書き込み原語を設計し、データタイル到達と同時に計算をトリガーし、バッチの到着待ちを不要にした。 第二に、依存感知型のタイルタスク生成を導入し、通信と計算の演算子を統一抽象化した。 第三に、静的スケジューラを用いて事前にタスクシーケンスを生成し、単一のカーネル内で二つのコアを並列駆動し、高速L2キャッシュを利用して中間結果を共有し、 HBMの遅いメモリへの書き戻しと読み込みの遅延を削減した。 テスト結果によると、64ノードのバランスルーティング下で、専門計算を担当するコアモジュール(MoE-FFN)の遅延は約36%短縮され、 データ処理速度は最大58%向上(速度向上は1.49倍から1.58倍に)した。 システム全体のエンドツーエンドの訓練速度も、1ステップあたり8%から9%向上した。 これらの結果は、昇腾の実際のエネルギー効率はハードウェア仕様だけでなく、 コンパイラとランタイムがAIC/AIVコアをいかに効率的にスケジューリングできるかにかかっていることを示している。
Huaweiと中国科学技術大学が協力してNVIDIAの独占を突破、昇腾A3が大規模モデルの専門計算速度を58%向上
大規模 MoE アーキテクチャの進化において、
国産昇腾(Ascend)チップを用いた大規模モデルの訓練は、
自主的かつ制御可能な AI 計算能力を構築するための重要な方向性となっている。
しかしながら、主流の大規模モデルフレームワークは多くが NVIDIA の CUDA エコシステムを基盤として開発されており、
昇腾プラットフォームへの直接移植時には、ハードウェアのキュー調整の不均衡や計算能力の低利用率といった課題に直面しやすい。
中国科学技術大学、華為、北京大学などが共同で、
昇腾 A3 の独特なハードウェアキューに対応したコンパイル・スケジューリングフレームワーク HyperParallel-MoE を提案し、
タイルレベル(tile-level)での調整を行うことにより、異種計算能力における並列スケジューリングのエネルギー効率のボトルネック突破を目指している。
昇腾 A3 には二種類のコアがあり、AIC は行列乗算を担当し、AIV はベクトル計算と通信を処理する。
しかし、従来の演算子の逐次スケジューリングでは、二つのコアは交互に動作し、交代でアイドル状態となる。
実測データによると、256ノードのクラスターで 671B の DeepSeek スタイルの大規模モデルを動作させた場合、
AIC の利用率はわずか67%、さらに39%の専門ルーティング通信遅延が重要な計算パス上に露出している。
HyperParallel-MoE のコアの変更点は三つある。
第一に、AIV駆動の片側書き込み原語を設計し、データタイル到達と同時に計算をトリガーし、バッチの到着待ちを不要にした。
第二に、依存感知型のタイルタスク生成を導入し、通信と計算の演算子を統一抽象化した。
第三に、静的スケジューラを用いて事前にタスクシーケンスを生成し、単一のカーネル内で二つのコアを並列駆動し、高速L2キャッシュを利用して中間結果を共有し、
HBMの遅いメモリへの書き戻しと読み込みの遅延を削減した。
テスト結果によると、64ノードのバランスルーティング下で、専門計算を担当するコアモジュール(MoE-FFN)の遅延は約36%短縮され、
データ処理速度は最大58%向上(速度向上は1.49倍から1.58倍に)した。
システム全体のエンドツーエンドの訓練速度も、1ステップあたり8%から9%向上した。
これらの結果は、昇腾の実際のエネルギー効率はハードウェア仕様だけでなく、
コンパイラとランタイムがAIC/AIVコアをいかに効率的にスケジューリングできるかにかかっていることを示している。