Ian Buckは、「Groq 3 LPUはRubinの『強化パッケージ』と見なせる」と述べています。LPUは驚異的な高速SRAMメモリを備え、浮動小数点計算を高速で行えます。ただし、制約もあり、万億パラメータのモデルをLPUだけで動かすには数十ラックが必要となり、規模の拡大やコスト、インフラの効率性に課題があります。一方、LPXラックを用いてLPUとRubinラックを協調させることで、両者の特性を活かし、すべての注意計算をGPU上で、すべての専門家モデルの行列演算をLPU上で行うことが可能になるのです。
Ian Buckは、「これは特定の計算ニーズとプラットフォームのプログラム性のバランスの問題であり、メーカーがどの程度特化設計を行うかに関わる」と述べています。「GPT-OSS向けのASICを作ることも可能で、極端な環境下ではモデルを用いたチップも作れるでしょう。効率的だと確信しています。ただし、そのモデルや実装はシリコンに固定され、ソフトウェアによる最適化や改良の余地を奪います」とも語っています。
Ian Buckは、「DeepSeek-R1は1年前にリリースされ、その後モデルの効率は向上しています。これは、世界中が新しい手法を学び、GPU上で混合専門家モデルをより効率的に動かす方法を見つけたためです」と説明します。「これが可能になったのは、これらのチップがオープンで設定可能だからです。新たな並列化手法やFP16からFP8、FP4への移行など、プラットフォームのプログラム性が性能向上をもたらし、汎用GPUを使った高速化とコスト削減、収益増加を実現しています」と述べています。
エヌビディアのビジネス副社長との対談:ロボットの「ChatGPT時代」が到来しつつある
今日の英偉達はこれまで以上に理解が難しいかもしれませんが、AI分野の発展を牽引するこの企業がAIの未来をどのように描いているのか、その考察は依然として価値があります。
英偉達の事業拡大の兆しは明らかです。今回のGTC大会では、データセンター向けアクセラレータ、ラック、ネットワーク製品、そして複数のオープンソースモデルが発表されました。CUDA、GPU、LPU(言語処理ユニット)、AIファクトリー、ロボット、自動運転、オープンソースモデルなどのキーワードが、英偉達CEOの黄仁勋の講演で頻繁に登場しました。GPUで有名なこの企業は、今やAIインフラやAIファクトリーの各段階を担う企業と定義する方が適切かもしれません。
データセンターアクセラレータの分野だけでも、英偉達の製品は多様化しています。RubinプラットフォームにはGPUに加え、LPUも導入されています。従来ASIC(専用集積回路)だったLPUは、汎用GPUとは異なる分野に位置しますが、英偉達がGroqのライセンスを獲得したことで、2種類のチップの連携が始まりました。
また、主要なクラウド事業者向けの60%のビジネスに加え、より複雑な40%の事業領域にも新たな展開が見られます。物理AIにおいては、自動運転とロボットが重要な焦点です。物理AIを展開するために、英偉達はハードウェアだけでなく、自動運転プラットフォームやモデルも開発しています。
今日の英偉達を理解するのは以前より難しいかもしれませんが、AIの未来をどう描いているのか、その考察は依然として重要です。GTC大会期間中、第一財経の記者は英偉達の超大規模・高性能計算担当副社長Ian Buck、Omniverseとシミュレーション技術担当副社長Rev Lebaredianとそれぞれ対話し、英偉達の製品開発の意図や考え方、チップの異種化現象、物理AIの展望、そしてロボットの「ChatGPT時代」の到来について解説を試みました。
GPUが依然として主導的な役割を果たす理由
Groqの技術を基盤に、英偉達は今回のGTCでLPUチップのGroq 3とGroq 3 LPXラックを発表しました。紹介によると、Groq 3 LPXはRubin CPUやGPUと併用することで、1メガワットあたりの推論スループットを35倍向上させ、今年後半には次世代のVera Rubin AIファクトリーに統合される予定です。
Groq 3の導入により、GPUだけが英偉達のデータセンターアクセラレータの唯一の形態ではなくなりました。従来、GPUとASICの対立は長らく議論されてきました。英偉達は昨年末にGroqと非独占的な知的財産権契約を結び、Groqの創設者Jonathan Rossや社長Sunny Madraを含むコアチームを迎え入れたことも、市場の挑戦に対抗する一手と解釈されています。Groq LPUの特徴は低遅延推論です。LPUを製品群に組み込む狙いは何でしょうか。
黄仁勋は、「異なる規模のモデルからのトークンには差異があり、今日の主要なトークン生成需要においてもRubinは重要な役割を果たすが、新たな細分化市場も出現している」と説明します。モデルが大きくなるほど、コンテキストも長くなるため、推論速度を非常に高速化し、新しいチップの組み合わせによってさまざまなニーズに応えることが可能になるのです。
Ian Buckは、「Groq 3 LPUはRubinの『強化パッケージ』と見なせる」と述べています。LPUは驚異的な高速SRAMメモリを備え、浮動小数点計算を高速で行えます。ただし、制約もあり、万億パラメータのモデルをLPUだけで動かすには数十ラックが必要となり、規模の拡大やコスト、インフラの効率性に課題があります。一方、LPXラックを用いてLPUとRubinラックを協調させることで、両者の特性を活かし、すべての注意計算をGPU上で、すべての専門家モデルの行列演算をLPU上で行うことが可能になるのです。
「現行のチャットボットやレコメンデーションシステムの大部分はRubinが担い、LPUはこれらを置き換えません。しかし、次世代のインテリジェントエージェントのワークロードでは、万億パラメータモデルや数十万のトークンコンテキスト、毎秒数千トークンの速度を実現するために、両チップの融合が可能になる」とIan Buckは述べています。
最近では、英偉達だけでなく、他のGPUメーカーも異なるチップの試験を行っています。AMDは2月末にMetaと協力し、半カスタムチップの設計を含む提携を発表しました。今月初め、蘇姿豐氏は、AIインフラの複雑化により、多様なワークロードに対応する必要があり、訓練や推論、大規模モデルや小規模モデルに関わらず、異なるタイプの計算が求められると説明しています。「AIインフラの次の段階では、単一のチップだけではすべてを最適化できず、異種の世界になっている。コストパフォーマンスを考慮しながら、多くのAIワークロードを効率的に処理する必要がある。ASICもその一角を占めるだろう」と述べています。計算コストとAIワークロードの多様化についての考えは、黄仁勋の見解と一致しています。
しかし、チップの異種化が進む中、ASICはますます普及し、プログラム可能で汎用性のあるGPUの地位に挑戦するのでしょうか。特定のワークロードに最適化されたASICが速度やコスト面で優位に立つ場合です。
Ian Buckは、「これは特定の計算ニーズとプラットフォームのプログラム性のバランスの問題であり、メーカーがどの程度特化設計を行うかに関わる」と述べています。「GPT-OSS向けのASICを作ることも可能で、極端な環境下ではモデルを用いたチップも作れるでしょう。効率的だと確信しています。ただし、そのモデルや実装はシリコンに固定され、ソフトウェアによる最適化や改良の余地を奪います」とも語っています。
Ian Buckは、「DeepSeek-R1は1年前にリリースされ、その後モデルの効率は向上しています。これは、世界中が新しい手法を学び、GPU上で混合専門家モデルをより効率的に動かす方法を見つけたためです」と説明します。「これが可能になったのは、これらのチップがオープンで設定可能だからです。新たな並列化手法やFP16からFP8、FP4への移行など、プラットフォームのプログラム性が性能向上をもたらし、汎用GPUを使った高速化とコスト削減、収益増加を実現しています」と述べています。
また、英偉達のソフトウェアエンジニアが約4ヶ月間、120万時間のGPUシミュレーションを行い、DeepSeek-R1の性能を4倍向上させた事例も紹介されました。ソフトウェア最適化だけで、DeepSeek-R1の効果を4倍にできたのです。
「特定のワークロードに合わせてモデルをハードコーディングすることも可能ですが、それでは新しいアルゴリズムや技術の開発の機会を逃すことになります。私たちは、プログラム性の高いプラットフォームを基盤とすれば、95%の最適化や技術はすべてのモデルに適用でき、次世代モデルの知能化に役立つと考えています」とIan Buckは語っています。
GroqもCUDAエコシステムに組み込まれるのかについて、Ian Buckは、「第一世代のLPUはまだ未完成だが、今後LPUのプログラミング環境を公開し、CUDAや他の方式での展開も検討している」と述べています。
物理AIの基盤づくり
英偉達は今回のGTCで、物理AIに関する多くの発表を行いました。ロボット分野では、Isaacシミュレーションフレームワーク、Cosmos、Isaac GROOTのオープンソースモデルを公開し、産業界のロボット開発・訓練・展開を支援しています。Cosmos 3は、合成世界生成、物理AI推論、動作シミュレーションを統合した最初の世界基盤モデルです。自動運転では、推論用VLAモデル(ビジュアルアクションランゲージ)Alpamayo 1.5を発表し、自動運転車の推論能力を強化しています。
英偉達は、ハードウェアだけでなく、ソフトウェア面でも物理AIの展開を進めており、モデルの深層化やオープンソース化に積極的です。
Rev Lebaredianは、「現状ではオープンソースの重要性はこれまで以上に高まっている」と述べ、英偉達はオープン研究とオープン技術に多大な投資を行っていると説明します。特に物理AIに関しては、一社だけでは構築できないため、共同での貢献が必要です。ロボットのChatGPT時代の到来には、皆が協力し合う必要があります。英偉達は「AIの中心」に位置し、エコシステムの橋渡し役として、関連作業をリードしています。
世界基盤モデルの開発理由について、Rev Lebaredianは、「これらのモデルは、インターネットから言語を学び、AIがパターンを見つけ出すことで知能を獲得する。英偉達は、物理法則に基づく世界基盤モデルを用いて、同じことを行おうとしている」と説明します。
「世界基盤モデルは、物理法則に基づいて世界を学習します。Cosmosはオープンソース化されており、どの企業もコンピュータ上で動かし、さまざまな用途に利用可能です。モデルだけでなく、データやフレームワーク、設計図も提供しています」とRev Lebaredianは述べ、「これを行う理由は、物理AIやロボットの完成にはまだ遠く、オープンソースの力を借りて推進する必要があるからです。多くの世界モデル企業はCosmosを訓練や評価に利用し、AI同士が教え合うエコシステムを作っています」と語っています。
物理AIの各分野の発展段階について、Rev Lebaredianは、「自動運転車にとっては、課題は科学から工学へと移行しており、規模拡大と車両の運行のための探索が中心です。一方、汎用ロボットの課題は多次元にわたり、ロボットの身体構造や手の性能、センサー、駆動機、電池などの改良が必要です」と述べています。
Rev Lebaredianは、「理想的なロボット身体を作っても、実際には使われず、多くのエンジニアがプログラミングに多大な時間を費やす現状があります。今は、ロボットの頭脳を有用にする技術が整いつつあり、ChatGPT時代の到来が見えてきました。推論能力を活用し、Cosmosのインテリジェントエージェントが必要なデータを生成し、ロボットの訓練に役立てることも可能です」と締めくくっています。