黄仁勋氏が推論の時代の到来を宣言。LPUは何の新たな変数をもたらすのか？

Question

現地時間3月16日、NVIDIAのCEOジェンスン・フアン（黄仁勋）がGTCカンファレンスで、エージェントAIのために設計された新しい計算プラットフォーム——NVIDIA Vera Rubinを発表した。

このプラットフォームは、まるで超スーパーな「計算装備」のようで、Vera CPU（中央処理装置）、Rubin GPU（グラフィックス処理装置）、NVLink 6スイッチ、ConnectX-9 SuperNIC（スーパーNIC）、BlueField-4 DPU（データ処理装置）、Spectrum-6（イーサネット・スイッチ）、新たなGroq 3 LPU（言語処理ユニット）など、複数のコアコンポーネントをまとめて揃えている。

要するに、これはAI専用に設計された一式のハードウェアの組み合わせで、計算をより速く、より賢くする。

その中でNVIDIAは、大規模導入を想定して設計されたGroq 3 LPXラックも発表した。これは、数百個のLPUを組み合わせて、1つの「スーパーブレイン」のように協調動作させ、非常に速い推論速度と大量のテキスト処理能力を実現できることを意味する。このラックには256個のLPUが搭載されており、128GBのオンチップ高速ストレージを備え、伝送速度は最大640 TB/sだ。

業界関係者の見方では、今回の発表の見どころは単なるチップのアップグレードだけでなく、システム統合密度の飛躍にある。雲岫資本AI/インテリジェント製造グループの取締役である庄昌磊氏は、21世紀経済報道の記者との取材で、「最大の変化は、NVIDIAがLPUを単一のチップやアクセラレータカードから、GPUと並ぶ“一次のラックシステム”として正式に引き上げたことです」と述べた。

とりわけ、LPXラックのLPU数が第1世代の64個から一気に256個へ引き上がったこの密度の跳ね上がりは、業界の予想を大幅に上回っており、超低遅延かつ長文の推論に対する切実な需要を反映している。

庄昌磊氏は、これがAI計算が「訓練中心」から全面的に「訓練＋推論を重視」へ移行し、推論が新たなシステムレベルの基盤インフラになりつつあることを示すと見ている。

中核は推論のため

LPUは、順序処理に適した計算集約型タスクのために設計された新しいチップアーキテクチャであり、その中核的な目標は、アーキテクチャの革新によって言語モデルの推論効率を最適化することにある。

アーキテクチャ面では、1つのGroq 3 LPUが500 MBのSRAMを統合している。LPUの中核要素の1つであるMEMブロックは、フラットでSRAM優先のメモリアーキテクチャであり、500 MBの高速オンチップSRAMが推論の主要な作業ストレージとして機能する。

（画像出典：NVIDIA公式サイト）

コンパイラとランタイムは、アクティブなワーキングセット（重み、アクティベーション、KV状態を含む）をオンチップメモリに配置し、データを明示的に移動する。ハードウェア管理のキャッシュに依存しない。これにより予測不可能な遅延が減り、遅延に最も敏感なデータを計算に近い場所へ配置することで、低く安定した遅延を提供するのに役立つ。

庄昌磊氏は記者に対し、Groq LPUのコアとなる優位性は「速い」だけでなく、「いつも同じくらい速い」という決定性のある遅延だと述べた。この時間決定性（Timing Deterministic）のアーキテクチャ設計には、計算パイプライン、メモリアクセス、コンパイラに対する深いカスタマイズが必要で、技術的なハードルは非常に高い。

産業用制御、自動運転など、リアルタイム性に厳しい要件があるシーンでは、この「決定性」が必須だ。一方で汎用GPUアーキテクチャや、クラウドベンダーが簡略化版の命令セットに基づいて設計したASICでは、柔軟性を保ちながら、このような極限の決定性を保証することは難しい。

華泰証券のリサーチによると、1月のCESと比べて、今回のGTCカンファレンスではGroq LPUの位置づけが、NVIDIAの全体プロダクトラインの中でより明確になってきた。NVIDIAは、LPUの低遅延特性を活用し、Agent AIなど相互性要求が高いアプリケーションを満たすことを計画している。

庄昌磊氏も同様に、ハードウェアの遅延ボトルネックが解消されれば、モデル設計者はよりリアルタイムで、より複雑なインタラクティブAIを探る自信が増すだろうと指摘した。例えば、現在のAIエージェントはまだ数秒の思考時間が必要かもしれないが、将来的には本当にミリ秒レベルの反応が実現される可能性がある。モデルは「単なる文字の飛び出し」ではなく、まるで人間のようにスムーズで、リアルタイムにあなたと会話できるようになる。

シリコンフォトンの元年が幕を開ける

NVIDIA Groq 3 LPXラックに加えて、Rubinプラットフォームのもう一つの大きな注目点は、NVIDIA Spectrum-6 SPXイーサネットラックだ。

CPO（光電一体パッケージ）を採用したSpectrum-Xイーサネットのシリコンフォトニクス技術は、従来の着脱式トランシーバーと比べて、光学エネルギー効率が最大5倍向上し、システムの信頼性は10倍高まる。

「Scale-Out（ラック間相互接続）は、現時点で最も明確な増分だ」と庄昌磊氏は述べた。Rubinプラットフォームはすでに、データセンター内部における多数のラック間のデータ洪水による伝送問題を解決するために、CPOスイッチの導入を始めており、2027年にはCPOが本格的に普及する重要な時間節目になると見込まれている。

GTCでNVIDIAは、Vera Rubinに続いて、NVIDIAの次世代の重要アーキテクチャはFeynmanであり、このアーキテクチャには新しいCPU：NVIDIA Rosaが含まれると明らかにした。

その中でRosaは新プラットフォームの中核であり、このプラットフォームはNVIDIAの次世代LPU LP40と、NVIDIA BlueField-5およびCX10を組み合わせ、NVIDIA Kyberによって銅ケーブルと光電一体パッケージの縦方向拡張、ならびにNVIDIA Spectrum級の光学横方向拡張を実現する。

「Scale-Up（ラック内部/チップ間）は、より先進的な見どころだ」と庄昌磊氏は指摘した。Feynmanアーキテクチャでは、NVIDIAはNVLink 8 CPOを導入し、「光をラックに入れる」、つまり光インターコネクトで一部の従来の銅バックプレーン接続を置き換え、GPUとLPUを直接接続することを計画している。これは、光インターコネクトが最も端のスイッチから、徐々に計算の中核となるラック内部へと進んでいることを意味する。

庄昌磊氏の見方では、算力インターコネクトの「血管」である光モジュールの価値は、エージェント・クラスターの規模拡大に伴って継続的に高まっている。CPOが実験室からスケールした商用へ移行するにつれ、シリコンフォトンの元年はすでに始まっており、これが通信ハードウェアのサプライチェーン全体のアップグレードを直接的に牽引する。

高級PCB需要は、噴出の可能性

前述のとおり、エージェント・システムが低遅延かつ長いコンテキストを必要とすることに対応するため、NVIDIAはGroq 3 LPX推論加速ラックも投入しており、256個のLPUプロセッサを含む。Vera Rubinと組み合わせると、1メガワットあたりの推論スループットは35倍向上できる。

一方で、LPU/LPXがラックの形で出荷されることは、PCB産業に破壊的な影響をもたらし得て、サプライチェーンにおける最大の「予想超え」要素になる可能性がある。

PCB、つまりプリント基板は、電子部品同士の電気的な相互接続の担い手であり、ほぼすべての電子機器に浸透している。中国のPCB産業は、世界の電子製造業における中核エンジンとして、成長が力強い。

コスト管理、環境基準、産業チェーンの付帯体制などの優位性により、現在、中国本土のPCB業界の産業生産額は世界の50%以上を占め、渤海湾、珠三角、長江デルタなどの産業クラスターを形成している。

上流・下流の観点では、AI需要が急増するにつれて、クラウドベンダーの資本支出が継続的に上方修正され、AIサーバー、ストレージ、ネットワーク機器の調達が押し上げられている。中信建投（601066）が試算したところ、2025年のGPU+ASICサーバーに対応するPCB市場規模は400億元超、2026年は900億元超で、成長率はすでに倍増している。

「現在、世界のAIサーバーPCB業界は供給と需要のギャップが20%の状態だ」と庄昌磊氏は率直に認めた。

庄昌磊氏の見方では、LPU/LPXラックが2026年末から2027年にかけて量産の高ピーク期に入るにつれて、高級PCBの需要は噴出するような形になり得る。「さらに高級HDIや多層PCBの需給逼迫を悪化させ、PCB産業チェーン全体を新たな増産・アップグレードのサイクルへと押し込むことになるだろう。」

例えば、LPU/LPXラック内部では、大量のデータスループット処理と、極めて低い遅延の通信が必要となるため、PCBの層数、材料、製造プロセスに対する要求は非常に高い。NVIDIAのLPUラックの例では、単一のマザーボード上のPCBの価値は6000ドルに達する一方で、完成したラック全体ではPCBの総価値が9.6万ドルにまで上がる（人民元換算で約70万元）。これは従来のAIサーバーPCBの価値に比べて10倍以上の上昇だ。

さらに、224Gbps以上の高速信号伝送に対応し、256個のLPUの高速相互接続を支えるために、PCBはより高度な基材と設計を採用しなければならない。材料の例として、通常の基材では要件を満たせず、M9等級の銅張積層板へアップグレードする必要がある。強化材料も、一般的な電子グラスクロスから、価値がそれの10倍であるQ-glass布へと転換する。次世代製品は、さらにはM10材料のテストがすでに始まっている。

庄昌磊氏によると、Rubin Ultraアーキテクチャでは、正交バックプレーン方式までも導入し、78層のPCBによってGPUとNVSwitchを直接相互接続することで、銅ケーブルの使用量を大幅に削減している。これはPCBが、従来の一部の配線ケーブルの役割を置き換え、ラック内の相互接続における「骨格」になりつつあることを示している。

黄仁勋氏が推論の時代の到来を宣言。LPUは何の新たな変数をもたらすのか？

人気の話題

GateSquareAprilPostingChallenge

WeekendCryptoHoldingGuide

IsraelStrikesIranBTCPlunges

CryptoMarketSeesVolatility

OilPricesRise

人気の Gate Fun

币安女王

币安女王

WTR

WinterCoin

NPL

NEPAL INU

GJWL

干就完了

666

2026

ピン