中科曙光は「標準版」超ノードを発表しました。AI推論の計算能力の未来の形態とは?

robot
概要作成中

出所:ティーマイディア

OpenClawが突然大ブームになったのは、AI Agent分野が一度は必ず注目を集める「必然的な飛び火」でもあり、同時にAI推論の計算能力(算力)市場に対する一種のプレッシャーテストでもある。

2026年半ばの中関村フォーラムで、中科曙が世界初の無線ケーブル型・ラック箱式スーパー・ノードscaleX40を発表した。それ以前のスーパー・ノードは、数百枚のGPU、あるいは千枚規模の巨大な存在で、例えば中科曙のscaleX640、NVIDIAのNVL72、Huaweiの昇腾384などが挙げられる。

これらのトップクラスのスーパー・ノードは、超大規模モデルの学習のために作られており、性能は強力だが、導入のハードルは極めて高い。カスタムのキャビネット、複雑な配線の接続、プロの運用保守チームが必要で、投資額は数千万元(数千万)から数億元(1億超)にも上るため、それらがサービスできるのは、インターネットの巨大企業や大規模な中央・国有企業のような、ごく一部のトッププレイヤーに限られる運命となっている。

スーパー・ノードの「裏側」にあるのが、推論市場で従来から主流となっている8枚GPUサーバーである。この種の製品は導入が柔軟で、コストもコントロールしやすいが、急速にアップグレードされるAI推論の算力需要に直面すると、性能面でやや不足がある。

「8枚GPUのマシンは、現状ではすでに大きく時代遅れです。仮にインターネット規模を拡張して16枚にしても、モデル推論サービスの発展のペースには届きません。」と中科曙光の上級副総裁・李斌は述べ、「AI開発を支える算力基盤は、徐々に従来の『算力ファクトリー』から『Tokenファクトリー』へと変わりつつあります。算力システムの主要なサービス対象は、過去にモデル学習を主に支えていたところから、現在では推論を主にサービスすることへと変化しています。」

学習の時代には、算力システムを評価する際の中核指標は、どれだけの算力があるかだった。一方、推論の時代では、より重要な指標は「どれだけ経済的なコストでTokenを産出できるか」に変わる。

画像提供:AI生成

AI需要は分化、推論算力はいまだ満たされず

現在の市場需要を見ると、AI算力の構造が層分けされつつある。業界機関の予測によれば、世界のAI基盤インフラへの投資は引き続き比較的速い成長を維持するが、新たな需要は、超大規模クラスターから、企業向けおよび業界アプリケーションのシナリオへと徐々に移行している。

こうした流れの中で、算力の構成の重点は、単に規模の上限を追い求めることではなく、性能・コスト・柔軟性のバランスをより重視するようになっている。業界では、数十枚規模であれば、多くの業界シナリオにおけるモデル学習、推論、開発テストの算力需要を満たすのに十分であり、効率と投資の双方を両立させる最大公約数の範囲だという見方が一般的である。

しかし、AIアプリケーション層の需要の進化はあまりにも速い。OpenClawに代表されるAI Agentの爆発的なブームが従来の業界アプリケーションを変えていくのと同時に、当面の算力供給側にもシステム再構築の需要を生んでいる。

第一に、通信のボトルネックだ。MoEモデルでは、通信が算力利用率向上の中核的な「詰まりどころ」になる。とりわけ専門家(エキスパート)分布の不確実性により、大量のクロスカード、クロスサーバー通信が発生し、従来の8枚GPUサーバーの算力アーキテクチャを直接的に突き破ってしまう。

第二に、HBMのボトルネック(大容量メモリ/顕著なビデオメモリの制約)だ。コンテキストウィンドウが継続的に拡張されており、OpenClawに必要な長いコンテキストの記憶能力もまた、大容量のビデオメモリやKV Cacheへの需要を日増しに押し上げている。これもまた、従来の8枚GPUサーバーが突破しにくい制約の一つである。

第三に、算力利用率のボトルネックだ。算力利用率と、推論の実装(実際にサービス提供)コストはほぼ反比例の関係にある。従来のクラスターには、算力利用率が不足しているという問題が一般的に存在する。核心的な課題は、単にハードウェアを積むことではなく、ハードウェア・アーキテクチャの革新と、それに伴うシステムエンジニアリング/最適化エンジニアリングの協同によって、システムの有効性と有効算力の双方を引き上げることにある。

第四に、生態系(エコシステム)のボトルネックだ。国産の算力エコシステムは複雑で、ベンダー数も多く、産業チェーンの距離も長い。産業間の協業の難度は小さくない。だからこそ、オープンな計算アーキテクチャを通じて、チップ、モデル、アプリケーションなど、全産業チェーンの上下流をつなぎ、オープンで使いやすく、箱を開ければすぐ使えて、経済的に広く普及できる算力基盤を作る必要がある。

中科曙光は、40枚GPUの「標準仕様」スーパー・ノードで市場に応えたいとしている。「40枚は“甘いゾーン(スイートスポット)”で、さまざまなお客様への調査・探索の中で見つけ出しました。」と中科曙光の副総裁・李柳は述べた。現在の主流モデルのパラメータ規模と使用シナリオでは、32〜40枚で大多数の業界需要をカバーでき、同時にコストと性能のバランスも取りやすい。

scaleX40は1つのノードに40枚のGPUを統合し、総算力は28PFLOPS超(FP8精度)、HBMのメモリ容量は5TB超、アクセス帯域幅は80TB/s超である。システムの信頼性は99.99%へと向上した。

scaleX40の規模設定は、大規模モデルの学習と推論を支える能力がありつつ、過度な投資圧力をもたらさない。下方向には32枚での運用にも対応でき、中小規模の学習、推論、開発テストを満たす。上方向には、拡張によってより大規模なクラスターを構成できる。

李斌は計算した。「従来の8枚GPUマシンを5台重ね、各種コストを積み上げた投資は、scaleX40と基本的に同等です。しかしscaleX40は学習性能を120%引き上げ、推論性能は最大330%まで向上できます。」

DeepSeekからOpenClawへ、新たな算力転換点

「Tokenには算力が必要で、しかし評価の次元や指標はより多くなっている。」と李斌は考える。「一般のユーザーにとっては応答速度が関心事で、質問をすると、それをすぐに返せるかどうかが重要です。一方で算力システムの運用者にとっては、同時アクセスできるユーザー数をどれだけ同時に支えられるか、そして基本的な利用体験を満たせるかを考慮する必要があります。」

智源研究院AIフレームワーク研究開発部門の責任者・敖玉龍も、「将来、算力供給側にとっての重要指標は、算力を無効なTokenではなく、有効なTokenへどう変換するかです。誰がそのコストを引き下げられるか――それが、真の勝者です。」と提起している。

scaleX40の設計は、これらの新たなニーズを中心に展開されている。144Gの大容量メモリ(大きなビデオメモリ)が長いコンテキストウィンドウを支え、多段KV Cacheのキャッシュメカニズムが推論シナリオにおける大容量メモリ需要を満たす。40枚の高帯域幅ドメインの一次相互接続(first-level interconnect)によって、専門家通信のout-to-outトラフィックを単一ノード内に回収する。これらの特性は、コストを抑えながら、単位算力当たりのToken産出効率を最大化するためのものだ。

無線ケーブル箱式設計もまた、scaleX40の大きな差別化ポイントだ。従来のスーパー・ノードの最大の痛点は、導入の複雑さである。例えばNVIDIAのNVL72では、銅ケーブル接続方式を採用しており、ラックキャビネット同士の間に大量の配線相互接続が必要だ。その結果、データセンター環境への要求は厳しくなり、導入サイクルは長くなり、さらに後工程の運用保守における故障率も高止まりする。

scaleX40の解決策は、今年のGTC大会でNVIDIAが公表した最新の解決策と似ており、バステクノロジーによってScale-up拡張を実現し、計算ノードとスイッチノードは無線ケーブルの直交アーキテクチャで直接差し込む。

この設計は複数の効果をもたらす。まず、バステクノロジーの性能は従来のNDRネットワークの10倍以上に到達し、メモリセマンティクスとビデオメモリの統一的なアドレッシングをサポートする。次に、1層でのネットワーク構築によってP2Pの片方向遅延を100ナノ秒以内にまで下げ、2層構成と比べて遅延を30%以上低減し、故障率も30%〜50%下げる。

さらに、scaleX40は標準的な19インチの箱式設計を採用しており、1台あたりの高さはわずか16U。一般的なラックキャビネットにそのまま設置でき、既存のデータセンター環境とも互換性があり、追加の改造は不要だ。

「これまで多くの製品は、どちらかというとラックが大きいか、標準化されていないか、あるいはデータセンターの改造が非常に複雑でした。」と李柳は述べた。「scaleX40は標準ラックの中に設置でき、標準のデータセンターの電源・冷却設備にも接続できるため、導入と利用のハードルが大幅に下がります。」

中国電信研究院の智算ネットワーク技術担当責任者・王子潇も、「スーパー・ノードの形態で推論サービスを提供することで、従来の単一サーバー8枚GPUと比べて性能は約2.6倍向上します。スーパー・ノードの『箱を開ければすぐ使える(開箱即用)』能力が大幅に強化され、Scale-outネットワークの構成複雑度は桁単位で低減されます。これは業界全体の大規模アプリケーションにとって非常に意義があります。」と述べている。

より深く見ると、scaleX40の発表は、国産算力エコシステムの成熟も映し出している。チップからシステムソフトウェアへ、ストレージからネットワークへ、演算子ライブラリから通信ライブラリへと、一つの完全な産業チェーンが形成されつつある。李斌の言う通りだ。「私たちは国内の計算AIエコシステム全体で、チップからシステムソフトウェア、さらに上層のモデルやアプリケーションまでを対象に、垂直方向の跨層協同(レイヤーをまたぐ協調)を行っています。垂直方向のカップリングと協同によって、より高い効率を発揮しようとしているのです。」

スーパー・ノードがより簡単な形で導入・利用され始め、千の産業・百の業種が合理的なコストで高端算力の能力を手にできるようになれば、中国AIの大規模な応用は、おそらく本当の意味で重要な一歩を踏み出すことになるだろう。(本記事の著者 | 張帅、編集 | 杨林)

特別声明:以上の内容は著者個人の見解または立場を表すものであり、Sina財経トピックの見解または立場を代表するものではありません。作品の内容、著作権、その他の問題によりSina財経トピックに連絡が必要な場合は、上記内容が公開された後30日以内にお願いします。

大量の情報、精密な解釈は、Sina財経APPの中へ

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン