> 株の売買は金麒麟のアナリストレポートを見よう。権威的で、専門的で、タイムリーで、包括的。可能性のあるテーマ機会を掘り起こすお手伝いをします!(出所:愛集微)4月1日、2026年中国ICリーダーズ・サミットの「エッジAIと演算・計算チップ」分科会テクニカルフォーラムにおいて、国科微AIアルゴリズム部長の倪亚宇(ニ・ヤユー)が「FlashAttention-4:新世代の大規模モデル推論NPUの流水ライン・パイプライン(パラダイム)設計」という題目で講演を行いました。大規模モデルが加速して産業への導入(実装)へと進むにつれ、推論効率、メモリ帯域、そしてシステム消費電力が、端末側への展開における重要なボトルネックとなっています。とりわけTransformerおよび大規模言語モデルが継続的に進化する背景のもとで、注意機構(Attention)の効率的な実装は、チップアーキテクチャとツールチェーンの最適化における重要なブレークスルーとなっています。倪亚宇氏は、国科微がFlashAttentionなどの最先端技術のNPUプラットフォームでの実装探索に注力し、端末側の量産導入により適したNPUアーキテクチャおよびツールチェーンの構築を推進することで、自動運転、エッジコンピューティング、スマート端末、そしてAIGCなどのシーンに高い性能の計算力を支えると述べました。NPUの「フルスペック版」FlashAttentionには依然として課題がある大規模モデルにおける中核的な計算構造の1つとして、注意機構は実運用では一般に、メモリアクセスのコストが高いこと、ならびに流水(パイプライン)の効率が制約を受けることなどの問題に直面しています。FlashAttentionの提案は、この問題を解決するための新たな道筋を提供しました。FlashAttentionは、スタンフォード大学のTri Daoなどによって2022年に提案された、高速かつメモリ効率の高い精密(正確)注意アルゴリズムです。注意計算のプロセスを等価に再構成し、ブロック計算、オンラインSoftmax、再計算、非同期流水などの手法によって、中間計算プロセスをチップ上のキャッシュに保持し、外部ストレージへのアクセス帯域の負荷を減らすことで、推論効率を大幅に向上させます。直近の3月中旬に、FlashAttention 4.0のバージョンが正式にリリースされました。倪亚宇氏は、FlashAttentionは1.0から4.0へ進化する過程で、並列性、長系列対応、低精度計算、非同期実行などの面で継続的に強化されてきたと述べました。しかしGPUと比べると、現状のNPUはベクトルユニットの計算能力、非同期流水の配置、動的スケジューリング、超ロングコンテキストなどの能力において依然として差があります。倪亚宇氏は、「フルスペック版」FlashAttentionを実現するには、計算流水ライン、データ再利用、システム帯域をめぐる協調設計が必要だと指摘しました。国科微NPU 4.0:より効率的な推論ユニットを構築2020年以降、国科微はNPUの自社開発に継続的に投資し、GKNPU 1.0から4.0までの進化ロードマップを形成してきました。製品能力は、より高い計算能力、より広いモデルのカバー、そしてより優れたエネルギー効率比へとアップグレードされています。現在、国科微のAIビジョンおよび車載AIシリーズのチップは3.0バージョンのNPUを搭載しており、0.5Tから8Tの計算能力に対応し、視覚、音声、時系列などのAIモデルを端末側チップへのアプリケーション実装でサポートしています。GKNPU 4.0のアーキテクチャ設計において、国科微は高効率な注意計算に向けた強化型パルスアレイ(脈動アレイ)のアーキテクチャを提案しました。行列およびベクトル計算能力を対象的に拡張し、大規模モデルの注意機構における重要な操作への対応を強化し、データ搬送経路と流水ラインのオーバーヘッドを圧縮することで、チップ上のクローズドループ計算能力を強化します。この設計は、外部帯域への依存を減らし、推論リンクの実行効率を高め、大規模モデル推論における帯域ボトルネック、活性値の断片化、ならびに超長コンテキストのメモリ負荷に効果的に対処することを狙いとしています。ツールチェーンを強化し、効率的な大規模導入を推進NPUアーキテクチャの進化に並行して、国科微はツールチェーン能力も継続的に強化しています。新世代のGKToolchain 3.0は、端末側の異種演算(異種算力)シーンを対象にしており、ハードウェア認識型コンパイル、自動分割(自動ブロッキング)、自動ベクトル化、非同期データの読み書き、計算流水の編成(オーケストレーション)能力を重点的に向上させることで、モデルの展開(デプロイ)を「適応可能」から「高効率で、スケール可能」へと推し進めます。同時に、ツールチェーンは動的メモリ管理、投機的推論加速(speculative inference acceleration)などの最前線の方向性に沿って継続的に進化し、長コンテキスト管理および複雑な推論プロセスを支える能力を強化することで、顧客がモデルからチップまでのデプロイのクローズドループを効率的に完了できるよう支援します。AIアプリケーションが学習側から推論側へ、クラウドから端末へと移行するにつれて、産業が求める演算(計算力)プラットフォームの要件は、「ピーク性能の高さ」から「高エネルギー効率、量産可能、導入しやすい」という総合能力へと移っています。NPUは端末側での大規模導入において、コストと消費電力の面で顕著な優位性を持ちます。倪亚宇氏は、国科微はアルゴリズムとハードウェアの協同イノベーションを継続的に堅持し、大規模モデル推論の中核的なボトルネックに焦点を当てて、NPUアーキテクチャ、製品能力、ツールチェーン体系を不断に改善し、端末側のスマート計算プラットフォームをより高性能、より低消費電力、そしてより強いエンジニアリング上の導入可能性の方向へと進化させ、顧客により競争力のある計算力ソリューションを提供していくと述べました。 大量の情報、精密な解釈は、Sina Financeのアプリで!
倪亚宇:端末側のインテリジェントアプリケーションに向けて、国科微はより効率的なNPUと工具链を開発
(出所:愛集微)
4月1日、2026年中国ICリーダーズ・サミットの「エッジAIと演算・計算チップ」分科会テクニカルフォーラムにおいて、国科微AIアルゴリズム部長の倪亚宇(ニ・ヤユー)が「FlashAttention-4:新世代の大規模モデル推論NPUの流水ライン・パイプライン(パラダイム)設計」という題目で講演を行いました。
大規模モデルが加速して産業への導入(実装)へと進むにつれ、推論効率、メモリ帯域、そしてシステム消費電力が、端末側への展開における重要なボトルネックとなっています。とりわけTransformerおよび大規模言語モデルが継続的に進化する背景のもとで、注意機構(Attention)の効率的な実装は、チップアーキテクチャとツールチェーンの最適化における重要なブレークスルーとなっています。
倪亚宇氏は、国科微がFlashAttentionなどの最先端技術のNPUプラットフォームでの実装探索に注力し、端末側の量産導入により適したNPUアーキテクチャおよびツールチェーンの構築を推進することで、自動運転、エッジコンピューティング、スマート端末、そしてAIGCなどのシーンに高い性能の計算力を支えると述べました。
NPUの「フルスペック版」FlashAttentionには依然として課題がある
大規模モデルにおける中核的な計算構造の1つとして、注意機構は実運用では一般に、メモリアクセスのコストが高いこと、ならびに流水(パイプライン)の効率が制約を受けることなどの問題に直面しています。FlashAttentionの提案は、この問題を解決するための新たな道筋を提供しました。
FlashAttentionは、スタンフォード大学のTri Daoなどによって2022年に提案された、高速かつメモリ効率の高い精密(正確)注意アルゴリズムです。注意計算のプロセスを等価に再構成し、ブロック計算、オンラインSoftmax、再計算、非同期流水などの手法によって、中間計算プロセスをチップ上のキャッシュに保持し、外部ストレージへのアクセス帯域の負荷を減らすことで、推論効率を大幅に向上させます。
直近の3月中旬に、FlashAttention 4.0のバージョンが正式にリリースされました。倪亚宇氏は、FlashAttentionは1.0から4.0へ進化する過程で、並列性、長系列対応、低精度計算、非同期実行などの面で継続的に強化されてきたと述べました。しかしGPUと比べると、現状のNPUはベクトルユニットの計算能力、非同期流水の配置、動的スケジューリング、超ロングコンテキストなどの能力において依然として差があります。倪亚宇氏は、「フルスペック版」FlashAttentionを実現するには、計算流水ライン、データ再利用、システム帯域をめぐる協調設計が必要だと指摘しました。
国科微NPU 4.0:より効率的な推論ユニットを構築
2020年以降、国科微はNPUの自社開発に継続的に投資し、GKNPU 1.0から4.0までの進化ロードマップを形成してきました。製品能力は、より高い計算能力、より広いモデルのカバー、そしてより優れたエネルギー効率比へとアップグレードされています。現在、国科微のAIビジョンおよび車載AIシリーズのチップは3.0バージョンのNPUを搭載しており、0.5Tから8Tの計算能力に対応し、視覚、音声、時系列などのAIモデルを端末側チップへのアプリケーション実装でサポートしています。
GKNPU 4.0のアーキテクチャ設計において、国科微は高効率な注意計算に向けた強化型パルスアレイ(脈動アレイ)のアーキテクチャを提案しました。行列およびベクトル計算能力を対象的に拡張し、大規模モデルの注意機構における重要な操作への対応を強化し、データ搬送経路と流水ラインのオーバーヘッドを圧縮することで、チップ上のクローズドループ計算能力を強化します。この設計は、外部帯域への依存を減らし、推論リンクの実行効率を高め、大規模モデル推論における帯域ボトルネック、活性値の断片化、ならびに超長コンテキストのメモリ負荷に効果的に対処することを狙いとしています。
ツールチェーンを強化し、効率的な大規模導入を推進
NPUアーキテクチャの進化に並行して、国科微はツールチェーン能力も継続的に強化しています。新世代のGKToolchain 3.0は、端末側の異種演算(異種算力)シーンを対象にしており、ハードウェア認識型コンパイル、自動分割(自動ブロッキング)、自動ベクトル化、非同期データの読み書き、計算流水の編成(オーケストレーション)能力を重点的に向上させることで、モデルの展開(デプロイ)を「適応可能」から「高効率で、スケール可能」へと推し進めます。
同時に、ツールチェーンは動的メモリ管理、投機的推論加速(speculative inference acceleration)などの最前線の方向性に沿って継続的に進化し、長コンテキスト管理および複雑な推論プロセスを支える能力を強化することで、顧客がモデルからチップまでのデプロイのクローズドループを効率的に完了できるよう支援します。
AIアプリケーションが学習側から推論側へ、クラウドから端末へと移行するにつれて、産業が求める演算(計算力)プラットフォームの要件は、「ピーク性能の高さ」から「高エネルギー効率、量産可能、導入しやすい」という総合能力へと移っています。NPUは端末側での大規模導入において、コストと消費電力の面で顕著な優位性を持ちます。
倪亚宇氏は、国科微はアルゴリズムとハードウェアの協同イノベーションを継続的に堅持し、大規模モデル推論の中核的なボトルネックに焦点を当てて、NPUアーキテクチャ、製品能力、ツールチェーン体系を不断に改善し、端末側のスマート計算プラットフォームをより高性能、より低消費電力、そしてより強いエンジニアリング上の導入可能性の方向へと進化させ、顧客により競争力のある計算力ソリューションを提供していくと述べました。
大量の情報、精密な解釈は、Sina Financeのアプリで!