英伟达GTCイベントでの黄仁勋 (ジェンスン フアン) のプレゼンテーションを理解する:コンピューティングパワーは永遠に眠らないと確信しています

著者:スーヤン、ハオ・ボーヤン;出典:テンセントテクノロジー

AI時代の「鋤人」である黄仁勋と彼のNVIDIAは、常に計算能力が眠らないと信じています。

! 【画像】(https://img.gateio.im/social/moments-e146a85053c16b1b0e400248f56dee05)

黄仁勋はGTCのプレゼンテーションで、推論により計算能力の需要が100倍に増加したと述べました。

今日のGTCで、ファン・レンフンは、新しいBlackwell Ultra GPUを発表しました。それに基づいて、推論およびエージェント用のサーバーSKUを開発しました。さらに、Blackwellアーキテクチャに基づいたRTX製品群も含まれています。すべては計算力に関連していますが、重要なのは計算力を適切かつ効果的に消費する方法です。

黄仁勋にとって、AGIには計算力が必要であり、具象的な知的ロボットには計算力が必要であり、Omniverseと世界モデルを構築するには、絶え間ない計算力が必要です。最終的に人類が仮想的な「平行宇宙」を構築するには、どれだけの計算力が必要か、NVIDIAは過去の100倍という答えを示しました。

自分の意見を支持するために、ファン・レンフンはGTCの会場でデータのセットを公開しました-2024年にアメリカのトップ4つのクラウドプロバイダーが合わせて130万個のホッパーアーキテクチャチップを購入し、2025年にはこの数字が360万個のブラックウェルGPUに急上昇しました。

ここでは、Tencent TechnologyがまとめたNVIDIAのGTC 2025カンファレンスの重要なポイントをいくつか紹介します。

Blackwell全家桶がオンラインになりました

1)今年の「核爆弾」であるブラックウェル・ウルトラは、歯磨き粉を絞っている

NVIDIAは昨年、GTCでBlackwellアーキテクチャを発表し、GB200チップをリリースしました。今年、GB300という噂されていた正式名称をGB200 Ultraと呼ぶことにしました。

しかし、ハードウェア的には、昨年の基盤をベースに新しいHBMメモリに変更されています。要するに、Blackwell Ultra= Blackwellの大容量バージョンです。

Blackwell Ultraは、2つのTSMC N4P(5nm)プロセス、Blackwellアーキテクチャチップ+Grace CPUパッケージ、およびより先進的な12層積層HBM3eメモリを搭載し、メモリは288GBに増加し、前世代と同様に第5世代NVLinkをサポートしており、1.8TB/sのチップ間相互接続帯域幅を実現できます。

! 画像

NVLinkの歴代パフォーマンスパラメータ

ストレージベースのアップグレードにより、Blackwell GPUのFP4精度計算能力は15PetaFLOPSに達し、Attention Accelerationメカニズムに基づく推論速度は、Hopperアーキテクチャのチップより2.5倍高速化されています。

2) Blackwell Ultra NVL72:AI推論専用キャビネット

! 画像

Blackwell Ultra NVL72の公式イメージ

GB200 NVL72と同様に、NVIDIAは今年、Blackwell Ultra NVL72キャビネットという類似の製品を発売しました。合計18枚のコンピューティングトレイで構成され、各コンピューティングトレイには4つのBlackwell Ultra GPUと2つのGrace CPUが含まれています。合計72個のBlackwell Ultra GPUと36個のGrace CPU、20TBのメモリ、総帯域幅576TB/s、さらに9つのNVLinkスイッチトレイ(18個のNVLinkスイッチチップ)が追加され、ノード間のNVLink帯域幅は130TB/sです。

ラックには、72枚のCX-8ネットワークカードが組み込まれており、14.4TB/sの帯域幅が提供されています。Quantum-X800 InfiniBandおよびSpectrum-X 800Gイーサネットカードは、遅延とジッタを低減し、大規模なAIクラスタをサポートしています。さらに、ラックには、18枚のBlueField-3 DPUが統合されており、マルチテナントネットワーク、セキュリティ、およびデータアクセラレーションの強化に使用されています。

NVIDIAは、この製品を「AI推論時代」向けに特別にカスタマイズされたものと説明し、推論型AI、エージェント、物理AIなどのシナリオに使用され、ロボットや自動運転トレーニング用のデータシミュレーションを行う(。前世代製品GB200 NVL72に比べてAI性能が1.5倍向上し、Hopperアーキテクチャと同じ位置付けのDGXラック製品と比較すると、データセンターに50倍の収益機会を提供できます。

公式によると、6710億のDeepSeek-R1パラメータに基づく推論は、H100製品では毎秒100トークンを実現できますが、Blackwell Ultra NVL72ソリューションを採用すると、毎秒1000トークンに達することができます。

時間に換算すると、同じ推論タスクを実行する場合、H100は1.5分かかりますが、Blackwell Ultra NVL72は15秒で完了します。

! 【画像】)https://img.gateio.im/social/moments-ae009b85584d17a96ee0582e943e48ff(

Blackwell Ultra NVL72およびGB200 NVL72ハードウェアパラメータ

NVIDIAによる情報によると、Blackwell NVL72関連製品は2025年下半期に発売される予定であり、顧客はサーバーメーカー、クラウドメーカー、コンピューティングパワーレンタルサービスプロバイダーなどが含まれます。

  • サーバープロバイダー

Cisco/Dell/HPE/Lenovo/Supermicro を含む 15 メーカー

  • クラウドファクトリー

主要プラットフォームであるAWS/Google Cloud/Azure/Oracleクラウドなど

  • ハッシュパワーリースプロバイダー

コアウィーブ/ラムダ/ヨッタなど

) 3)実際の「核爆弾」GPU Rubinチップを事前にプレビューする

英伟达のロードマップに従うと、GTC2025のメイン会場はBlackwell Ultraです。

ただし、黄仁勋もこの機会に、Rubinアーキテクチャを採用した次世代GPUおよびより強力なVera Rubin NVL144-72 Vera CPU+144 Rubin GPU、288GBのHBM4メモリを搭載し、メモリ帯域幅13TB/s、第6世代NVLinkおよびCX9ネットワークカードを備えた2026年に上市予定の製品を予告しました。

この製品の強度はどれくらいですか? FP4 の精密推論計算能力は 3.6 エクサフロップスに達し、FP8 精密トレーニングの計算能力も 1.2 エクサフロップスに達し、Blackwell Ultra NVL72 の 3.3 倍の性能を発揮します。

もしあなたがそれで満足していないと感じるなら、大丈夫です。2027年には、より強力なRubin Ultra NVL576ラックと、FP4精度の推論力とFP8精度のトレーニング能力がそれぞれ15ExaFLOPSと5ExaFLOPSで、Blackwell Ultra NVL72の14倍になります。

! [画像]###https://img.gateio.im/social/moments-116d07948d787697d1e19a423dc7ace4(

NVIDIA公式提供のRubin Ultra NVL144およびRubin Ultra NVL576の仕様

) 4) ブラックウェル ウルトラ エディション DGX スーパー POD “スーパーコンピューティング ファクトリー”

現在のBlackwell Ultra NVL72ではニーズを満たせないが、巨大なAIクラスターを構築する必要もない顧客向けに、NVIDIAのソリューションはBlackwell Ultraベースの即座に利用可能なDGX Super POD AIスーパーコンピューティングファクトリーに基づいています。

DGX Super PODは、即座に使用できるAIスーパーコンピューティングファクトリーであり、主に生成型AI、AIエージェント、物理シミュレーションなどのAIシーン向けに設計されています。プレトレーニングからポストトレーニング、本番環境まで、Equinixは最初のサービスプロバイダーとして、液冷/空冷インフラストラクチャのサポートを提供しています。

! [画像]###https://img.gateio.im/social/moments-d459d098063a0ff6728108328daffd3f(

Blackwell Ultra 製の DGX SuperPod

Blackwell Ultraに基づいてカスタマイズされたDGX Super PODには2つのバージョンがあります:

  • 内蔵 DGX GB300 (Grace CPU ×1+Blackwell Ultra GPU ×2) DGX SuperPOD、合計 288 個の Grace CPU + 576 個の Blackwell Ultra GPU、300TB の高速メモリ、FP4 精度で 11.5 エクサフロップスを提供*
  • DGX B300 を内蔵した DGX SuperPOD は、このバージョンには Grace CPU チップは含まれておらず、拡張の余地があり、空冷システムを使用しており、主なアプリケーション シナリオは通常のエンタープライズ レベルのデータ センターです*

) 5) DGX Spark と DGX Station

今年 1 月、Nvidia は CES で 3,000 ドルのコンセプチュアル AI PC 製品である Project DIGITS をリリースし、正式名称は DGX Spark になりました。

製品の仕様では、GB10チップ、FP4精度での計算能力は1PetaFlopsに達し、128GB LPDDR5Xメモリ、CX-7ネットワークカード、4TB NVMeストレージ、LinuxベースのDGX OSオペレーティングシステムを搭載し、Pytorchなどのフレームワークをサポートし、NVIDIAが提供するいくつかの基本的なAIソフトウェア開発ツールがプリインストールされており、2000億パラメータモデルを実行できます。マシン全体のサイズはMac miniに近く、2台のDGX Sparkを接続し、4000億パラメータを超えるモデルを実行できます。

AI PCと言っていますが、本質的にはスーパーコンピュータの範疇に属しているため、消費者向け製品であるRTXのようなものではなく、DGX製品シリーズに配置されています。

ただし、この製品に対する批判もあります。FP4の宣伝性能は低く、FP16精度に換算するとRTX 5070や250ドルのArc B580と比較しても、コストパフォーマンスが非常に低いとされています。

! 【画像】###https://img.gateio.im/social/moments-0ad2286c98bbdacda9a450abd3606e80(

DGX SparkコンピューターとDGX Stationワークステーション

DGX Sparkに加え、NVIDIAはBlackwell UltraベースのAIワークステーションも発売しました。このワークステーションにはGrace CPUとBlackwell Ultra GPUが搭載され、統合メモリが784GB、CX-8ネットワークカードを備え、20PetaFlopsのAIパフォーマンスを提供します(公式にはマークされていませんが、理論的にはFP4精度も可能です)。

) 6)RTXがAI PCを席巻し、さらにデータセンターにも進出する予定です

Grace CPUとBlackwell Ultra GPUに基づいた製品SKUについて前述しましたが、これらはすべてエンタープライズ向けの製品であり、多くの人々がRTX 4090などの製品がAI推論にどれほど優れているかに注目していることを考慮して、NVIDIAは今回のGTCでBlackwellとRTXシリーズの統合をさらに強化し、ノートパソコン、デスクトップ、さらにはデータセンターなどのシーンに対応した多くの内蔵GDDR7メモリを搭載したAI PC関連GPUを導入しました。

  • デスクトップ GPU: RTX PRO 6000 Blackwell Workstation Edition、RTX PRO 6000 Blackwell Max-Q Workstation Edition、RTX PRO 5000 Blackwell、RTX PRO 4500 Blackwell、RTX PRO 4000 Blackwell を含む
  • ノートブック GPU: RTX Pro 5000 Blackwell、RTX PRO 4000 Blackwell、RTX、PRO 3000 Blackwell、RTX PRO 2000 Blackwell、RTX PRO 1000 Blackwell、RTX PRO 500 Blackwell*
  • データセンターGPU:NVIDIA RTX PRO 6000 Blackwell Server Edition

! [画像]###https://img.gateio.im/social/moments-b6c591bdc6c60a8e477fc88631a3b9a0(

エンタープライズコンピューティング向けに設計されたNVIDIAのAI「お家芸」

これは、さまざまなシーンに合わせてカスタマイズされたBlackwell Ultraチップに基づく一部のSKUにすぎません。 ワークステーションからデータセンタークラスターまで、NVIDIAはこれを「Blackwell Family」(Blackwellファミリー)と呼んでいますが、中国語で「Blackwell全家桶」と呼んでいます。

Nvidia Photonics:チームメイトの肩の上に立つCPOシステム

光デバイス共通パッケージ(CPO)の概念は、単純に言えば、スイッチチップと光モジュールを共同でパッケージ化し、光信号を電気信号に変換することができ、光信号の伝送性能を最大限に活用することができます。

これまで、業界ではずっとNVIDIAのCPOネットワークスイッチ製品について話し合われてきましたが、まだオンライン化されていませんでした。黄仁勲氏は会場で説明を行いました。データセンターでは光ファイバー接続が大量に使用されているため、光ネットワークの消費電力は計算リソースの10%に相当し、光接続のコストが計算ノードのスケールアウトネットワークとAIパフォーマンス密度の向上に直接影響しています。

! 【画像】)https://img.gateio.im/social/moments-1d701aeb143b1f0cd089570733b1df70(

GTCに展示されている2つのシリコンフォトニック共振器チップQuantum-X、Spectrum-Xのパラメータ

今年,GTCのNVIDIAは、Quantum-Xシリコンフォトニックパッケージ、Spectrum-Xシリコンフォトニックパッケージおよびそれに派生した3つのスイッチング製品:Quantum 3450-LD、Spectrum SN6810、Spectrum SN6800を一挙に発表しました。

Quantum 3450-LD:144 x 800GB/sポート、115TB/sバックプレーン帯域幅、水冷 スペクトラムSN6810:800GB/sの128ポート、102.4TB/sのバックプレーン帯域幅、水冷

  • スペクトルSN6800:512ポート800GB/s、バックプレーン帯域幅409.6TB/s、液体冷却

上記の製品はすべて「NVIDIA Photonics」に分類されます。 NVIDIAによれば、これはCPOパートナーエコシステムを基盤とした共同開発プラットフォームであり、例えば搭載されているマイクロリングモデュレータ(MRM)はTSMCの光エンジン最適化に基づいており、高出力、高効率レーザーモジュレーションをサポートし、また取り外し可能な光ファイバコネクタを採用しています。

興味深いのは、以前の業界情報によると、TSMCのマイクロリングモジュレータ(MRM)は、同社が3nmプロセスおよびCoWoSなどの先進パッケージ技術をベースにBroadcomと共同開発したものだということです。

英ウェイダが提供するデータによると、フォトニクススイッチングモジュールを統合したスイッチングハブは、従来のスイッチングハブと比較して、性能が3.5倍向上し、展開効率も1.3倍向上し、拡張弾力性も10倍以上向上します。

モデルの効率PK DeepSeek:ソフトウェアエコシステムがAIエージェントを加速

! [画像])https://img.gateio.im/social/moments-91bee3beda93d8e9e62f4e3f3f9aa47c(

黄仁勋は現場でAIインフラの「大饼」を描いています

今回の2時間に及ぶGTCでは、ファン・ヒョンはソフトウェアと具体的な知能についてわずか30分しか話していませんでした。そのため、多くの詳細は現地からではなく、公式文書から補完されています。

) 1) Nvidia Dynamo、推論の分野で構築されたNVIDIAの新しいCUDA

Nvidia Dynamoは、このリリースのソフトウェアの切り札です。

それは推論、トレーニング、およびデータセンター全体のアクセラレーションに特化したオープンソースソフトウェアです。 Dynamoのパフォーマンスデータは非常に印象的です:既存のHopperアーキテクチャでは、Dynamoは標準のLlamaモデルのパフォーマンスを2倍にすることができます。そして、DeepSeekなどの専門の推論モデルに対して、NVIDIA Dynamoのスマートな推論最適化により、各GPUが生成するトークンの数を30倍以上増やすことができます。

! 【画像】###https://img.gateio.im/social/moments-e2048dbf1ea9e5d046fd9fd8bca2a244(

黄仁勋がDynamoを追加したBlackwellでHopperの25倍以上を超えることを示しています

Dynamoのこれらの改善は、主に分散化によるものです。LLMの異なる計算段階(ユーザークエリの理解と最適な応答の生成)を異なるGPUに割り当て、各段階を独立して最適化し、スループットを向上させ、応答速度を向上させます。

! [画像])https://img.gateio.im/social/moments-380b9fe8c64618f264b3e2a82e3da790(

Dynamoのシステムアーキテクチャ

例えば、入力処理段階、つまり事前充填段階では、Dynamoは効率的にGPUリソースを割り当ててユーザーの入力を処理することができます。システムは複数のGPUグループを利用してユーザーのクエリを並列処理し、GPU処理をより分散させ、より速くすることを望んでいます。DynamoはFP4モードを使用して複数のGPUを同時に並列して「読み取り」および「理解」するように呼び出し、「第二次世界大戦」の背景知識を処理するGPUグループ、関連する歴史資料を処理する別のグループ、時間軸とイベントを処理する第三のグループなど、この段階はまるで複数の研究アシスタントが同時に多くの資料を参照しているようです。

そして、出力トークンの生成段階では、GPUをより専念させ、連続させる必要があります。GPUの数よりも、この段階では前段階の思考情報を吸収するためにより大きな帯域幅が必要であり、より多くのキャッシュ読み取りも必要です。 Dynamoは、GPU間の通信とリソース割り当てを最適化し、連続かつ効率的な生成を保証します。一方で、NVL72アーキテクチャの高帯域幅NVLink通信能力を最大限に活用し、トークン生成効率を最大化します。また、関連するKV)キーのGPUにリクエストをキャッシュ済みにするために、「Smart Router」を使用することで、重複計算を回避し、処理速度を大幅に向上させます。重複計算を回避することで、一部のGPUリソースが解放され、Dynamoはこれらの空きリソースを新しい入力要求に動的に割り当てることができます。

このアーキテクチャはKimiのMooncakeアーキテクチャに非常に似ていますが、ベースのinfraでは英伟达がより多くのサポートを提供しています。 Mooncakeはおそらく約5倍になるでしょうが、ダイナモは推論上でより顕著に向上します。

例えば、Dynamoの重要な革新のいくつかには、「GPU Planner」があり、負荷に応じてGPUの割り当てを動的に調整することができ、「低遅延通信ライブラリ」がGPU間のデータ転送を最適化し、「メモリマネージャ」が推論データを異なるコストレベルのストレージデバイス間でスマートに移動することで、運用コストをさらに削減します。そして、インテリジェントルーター、LLM感知型ルーティングシステムは、リクエストを最適なGPUに誘導し、重複計算を減らします。これらの能力の連続により、GPUの負荷を最適化することができます。

このソフトウェア推論システムを使用すると、大規模なGPUクラスタに効率的に拡張でき、単一のAIクエリを最大1000個のGPUにシームレスにスケーリングすることができ、データセンターのリソースを最大限に活用できます。

GPUオペレーターにとって、この改善により、100万トークンあたりのコストが大幅に削減され、生産能力が大幅に向上しました。同時に、ユーザーごとのトークン獲得量が増加し、応答速度が向上し、ユーザーエクスペリエンスが向上しました。

! 【画像】(https://img.gateio.im/social/moments-f8de7caca1c8cdd058d3b932d7d378a1)

Dynamoを使用して、サーバーのスループットと応答速度のゴールデンバランスを実現します

CUDAをGPUプログラミングの基盤としているのとは異なり、Dynamoはより高次のシステムであり、大規模な推論負荷のスマートな割り当てと管理に焦点を当てています。それは推論最適化の分散スケジューリングレイヤーを担当し、アプリケーションと基盤となる計算インフラストラクチャの間に位置しています。CUDAが10年以上前にGPUコンピューティングの地平を変えたように、Dynamoも推論ソフトウェアおよびハードウェアの効率性の新しい範式を築く可能性があります。

Dynamoは完全にオープンソースであり、PyTorchからTensor RTまでのすべての主要フレームワークをサポートしています。オープンソースであっても、それは依然として独自の保護壁です。CUDAと同様に、それは英伟达のGPUにのみ効果的であり、NVIDIA AI推論ソフトウェアスタックの一部です。

このソフトウェアを使用して、NVIDIAはGroqなどの専用推論AISCチップに対抗するための城壁を構築しました。推論インフラストラクチャをリードするには、ソフトウェアとハードウェアの両方が必要です。

( 2)Llama Nemotron新モデルは効率的ですが、DeepSeekにはまだ及びません

サーバーの利用に関しては、Dynamo は確かに印象的ですが、モデルのトレーニングに関しては、NVIDIA とはまだ少し差があります。)

NVIDIAは、新しいモデルLlama NemotronをGTCで発表し、効率的で正確な性能を打ち出しています。これは、Llamaシリーズモデルから派生したものです。NVIDIAによる特別な微調整を経て、Llama本体と比較して、このモデルはアルゴリズムのトリミング最適化を経て、より軽量化され、わずか48Bです。また、o1に類似した推論能力も備えています。Claude 3.7やGrok 3と同様に、Llama Nemotronモデルには推論能力のスイッチが内蔵されており、ユーザーがオン/オフを選択できます。このシリーズは、Nano(エントリーレベル)、Super(ミドルレンジ)、Ultra(フラッグシップ)の3つのカテゴリに分かれており、それぞれ異なる規模の企業ニーズに対応しています。

! [画像]###https://img.gateio.im/social/moments-f96380931cf2a144170345b7ec105846(

Llama Nemotron の特定データ

効率的に話すと、このモデルのファインチューニングデータセットは、完全にNVIDIA自身が生成した合成データから構成されており、合計約60Bトークンです。 DeepSeek V3の130万H100時間の完全なトレーニングに比べ、このDeepSeek V3の1/15のパラメータ量を持つモデルは、わずか36万H100時間の微調整で済んでいます。 トレーニング効率はDeepSeekより1つランク下です。

推論の効率に関して、Llama Nemotron Super 49Bモデルは前のモデルよりもはるかに優れており、そのトークンスループットはLlama 3 70Bの5倍に達し、単一のデータセンターGPUでは3000トークン以上のスループットが可能です。しかし、DeepSeekのオープンソースデーで公開されたデータによると、各H800ノードのプリフィル期間中の平均スループットは約73.7kトークン/秒(キャッシュヒットを含む)であり、デコード期間中には約14.8kトークン/秒の出力があります。両者の差は明らかです。

! 【画像】)https://img.gateio.im/social/moments-8378715743f1e60d041a3cd7d7c219de(

性能面では、49BのLlama Nemotron Superは、すべての指標で70BのDeepSeek R1で蒸留されたLlama 70Bモデルを上回っています。ただし、最近、Qwen QwQ 32Bモデルなどの小さなパラメータで高エネルギーモデルが頻繁にリリースされていることを考慮すると、Llama Nemotron Superはこれらのモデルと競争するのが難しいと予想されます。

最も重要なのは、このモデルがDeepSeekが訓練プロセスでGPUを調整することについて、おそらくNVIDIAよりも理解していることを実証したことです。

) 3)新モデルは、単なるNVIDIA AI Agentエコシステムの前菜に過ぎず、NVIDIA AIQこそがメインディッシュです

NVIDIAはなぜ推論モデルを開発する必要があるのでしょうか?これは、老黄が注目するAIの次の爆発点であるAIエージェントに備えるためです。OpenAI、Claudeなどの大手企業が次々にDeepReasearch、MCPを通じてエージェントの基盤を構築してから、NVIDIAもエージェント時代が来たと認識しているようです。

NVIDA AIQプロジェクトは、NVIDIAの取り組みです。これは、Llama Nemotron推論モデルを中心としたプランナーのAIエージェントのワークフローを直接提供します。このプロジェクトはNVIDIAのBlueprint(設計図)レベルに属しており、事前構成された参照ワークフローのセットであり、開発者がNVIDIAのテクノロジーとライブラリをより簡単に統合できるようにするテンプレートです。そしてAIQはNVIDIAが提供するエージェントのテンプレートです。

! 【画像】###https://img.gateio.im/social/moments-97ea77b03ad4a4fe4b1b1fede25596a4(

NVIDA AIQのアーキテクチャ

Manusと同様に、外部のツールとしてネットワーク検索エンジンやその他の専門AIエージェントを統合して、このエージェント自体が検索だけでなくさまざまなツールを使用できるようにしています。Llama Nemotron推論モデルの計画を通じて、ユーザーのタスクを遂行するために、解決策を考え直し、最適化します。さらに、複数のエージェントをサポートするワークフロー構造の構築もサポートしています。

! 【画像】)https://img.gateio.im/social/moments-075dfe522598ad052ab2907c048fb015(

このテンプレートに基づいて作成されたservicenowシステム

Manusよりも進んでいるのは、企業ファイル向けの複雑なRAGシステムを備えていることです。このシステムには、抽出、埋め込み、ベクトルストレージ、LLM処理を経て最終的にAgentが使用するための一連のステップが含まれており、企業データの保証ができます。

さらに、NVIDIAはAIデータプラットフォームを導入し、企業データシステムにAI推論モデルを統合し、企業データ向けのDeepReasearchを実現しています。これにより、ストレージ技術の重要な進化がもたらされ、ストレージシステムがデータの倉庫にとどまらず、能動的な推論と分析能力を備えたインテリジェントプラットフォームとなりました。

! [画像])https://img.gateio.im/social/moments-a39ee6ec030b38226c1811e5d14a2348(

AIデータプラットフォームの構成

AIQは観測可能性と透明性メカニズムを非常に重視しています。これはセキュリティと今後の改善にとって非常に重要です。開発チームはエージェントの活動をリアルタイムで監視し、パフォーマンスデータに基づいてシステムを継続的に最適化できます。

全体的に言えば、NVIDA AIQは標準のエージェントワークフローテンプレートであり、さまざまなエージェント機能を提供しています。これは推論時代に進化した、もっともダイフィなエージェント構築ソフトウェアの一種と言えます。

人形ロボットの基本モデルリリース ナビディアは具現生態系の完全なクローズドループを作ることを望んでいます

) 1)コスモス、身体化された知性が世界を理解できるようにする

もしAgentに専念するか、今に投資するかという話なら、NVIDIAは完全に未来を統合していると言えます。

モデル、データ、計算力のこれらのモデルの三要素は、すべてNVIDIAがきちんと配置しています。

モデルから始めましょう。 今回のGTCでは、今年1月に発表された具体的な知能基本モデルCosmosのアップグレード版がリリースされました。

Cosmosは、現在の画像から未来の画像を予測するモデルです。テキスト/画像入力データから詳細なビデオを生成し、現在の状態(画像/ビデオ)とアクション(ヒント/制御信号)を組み合わせてシーンの変化を予測できます。これは世界の物理的因果関係を理解する必要があるため、NVIDIAはCosmosを世界基本モデル(WFM)と呼んでいます。

! [画像]###https://img.gateio.im/social/moments-96eed5a18a4c78811de012d7353fe71d(

Cosmosの基本アーキテクチャ

しかし、具体的な行動/時間-物理世界の変化を予測する基本モデルがあれば、自動運転やロボットのタスクなどの具体的な物理形態を持つ具体的な具体的な具体的な具体的な具体的な具体的な具体的な具体的な具体的な具体的な具体的な具体的な具体的な具体的な具体的な具体的な具体的な行動/時間-物理世界の変化を予測する基本モデルがあれば、自動運転やロボットのタスクなどの具体的な物理形態を持つ具体的な具体的な具体的な具体的な具体的な具体的な具体的な具体的な具体的な具体的な具体的な具体的な具体的な具体的な具体的な具体的な具体的な具体的な行動/時間-物理世界の変化を予測する基本モデルがあれば、自動運転やロボットのタスクなどの具体的な物理形態を持つ具体的な具体的な具体的な具体的な具体的な具体的な具体的な具体的な具体的な具体的な具体的な具体的な具体的な具体的な具体的な具体的な具体的な

全体モデルには、3つの機能が含まれており、最初のCosmos Transferは、構造化されたビデオテキスト入力を制御可能なリアルなビデオ出力に変換し、テキストだけで大規模な合成データを生成します。これにより、現在の具体的な知能の最大のボトルネックであるデータ不足の問題が解決されます。また、この生成は「コントロール可能」な生成であり、ユーザーは特定のパラメータ(天候条件、オブジェクトの属性など)を指定でき、モデルは結果を適切に調整してデータ生成プロセスをよりコントロール可能かつ対象的にします。この全体のプロセスはOminiverseとCosmosが組み合わせて行うこともできます。

! 【画像】)https://img.gateio.im/social/moments-e6b5268dffdd018830e53f9ae2c2515(

CosmosはOminiverse上に構築された現実シミュレーションです

Cosmos Predictの第2部分では、複数の入力形式から仮想世界の状態を生成し、複数フレームの生成やアクショントラッキングをサポートします。つまり、開始状態と終了状態が与えられると、モデルは合理的な中間プロセスを生成できます。これは核心的な物理世界の認識と構築能力です。

第三部分はCosmos Reasonで、これはオープンで完全にカスタマイズ可能なモデルであり、時空を認識し、思考リンク推論によってビデオデータを理解し、対話結果を予測する能力を持っています。これは行動の計画と結果の予測能力を向上させるものです。

これらの3つの能力が段階的に積み重なると、Cosmosは、現実の画像トークン+テキストコマンドプロンプトトークンの入力から機械アクショントークンの出力までの完全な行動リンクを実現できます。

この基本モデルは確かに効果的です。 たった2か月で、1X、Agility Robotics、Figure AIの3つのトップ企業が使用し始めました。 大規模言語モデルは先頭に立っていませんが、具体的な知能を持つNVIDIAは確かに第一線にいます。

) 2)アイザックGR00T N1、世界で初めての人間型ロボットベースモデル

Cosmosを使用することで、NVIDIAは自然に人型ロボット用の基本モデルIsaac GR00T N1を微調整しました。

! 【画像】###https://img.gateio.im/social/moments-03f9b90d7d4337d4b49542337c32cccf(

Isaac GR00T N1のデュアルシステムアーキテクチャ

それは迅速な反応を示す“システム1”と深い推論能力を持つ“システム2”を採用しています。その包括的な微調整により、グラブ、移動、二本腕操作などの一般的なタスクを処理できます。また、特定のロボットに合わせて完全にカスタマイズでき、ロボット開発者は実データまたは合成データを使用して追加トレーニングを行うことができます。これにより、このモデルは実際にはさまざまな形状のロボットに展開することができます。

例えば、NVIDIAはGoogle DeepMindとディズニーと協力して、Newton物理エンジンを開発しました。Isaac GR00T N1をベースにして、非常に珍しい小さなディズニーBDXロボットが駆動されました。その汎用性の高さがわかります。物理エンジンとしてのNewtonは非常に繊細であり、そのため、物理報酬システムを構築するのに十分であり、バーチャル環境で身体的知能を訓練するのに適しています。

! [画像])https://img.gateio.im/social/moments-cb2f7f01e71700f7175d3a81f75d38b9(

Jensen Huangはステージ上でBDXロボットと「情熱的に」対話します

) 4)データ生成、2本柱

NVIDIAは、NVIDIA OmniverseとNVIDIA Cosmos Transferで構築された世界のベースモデルを組み合わせ、Isaac GR00T Blueprintを作成しました。これにより、少数の人間のデモから大量の合成動作データを生成し、ロボット操作のトレーニングに使用できます。NVIDIAはBlueprintの最初のコンポーネントを使用して、わずか11時間で78万の合成トラジェクトリを生成しました。これは、人間のデモデータの約6,500時間(約9か月)に相当します。Isaac GR00T N1の多くのデータはここから来ており、これらのデータにより、GR00T N1のパフォーマンスは実データのみを使用するよりも40%向上しました。

! 【画像】###https://img.gateio.im/social/moments-4a7651bbdc8a83e0c1d4c39e114d730a(

ツインシミュレーションシステム

各モデルについて、NVIDIAはOmniverseの純粋仮想システムとCosmos Transferの実世界画像生成システムを活用して、多くの高品質データを提供できます。 このモデルの第2の側面についても、NVIDIAはカバーしています。

) 3)訓練から終了までロボットコンピューティング帝国を構築するためのトリニティコンピューティングパワーシステム

昨年から、ロイミンはGTCで「三つのコンピュータ」の概念を強調しています:1つはDGXで、大規模GPUサーバーです。AIをトレーニングするために使用され、具体的には身体的な知性を含みます。もう1つはAGXで、NVIDIAがエッジコンピューティングや自律システム向けに設計した組み込みコンピューティングプラットフォームです。端末にAIを展開するために使用され、例えば自動運転やロボットの中核として機能します。3つ目はデータ生成コンピューターのOmniverse+Cosmosです。

! 【画像】###https://img.gateio.im/social/moments-7dba53ee823059c29b6b23fb6e0a86f5(

身体化された知性の3つのコンピューティングシステム

このシステムは、今回のGTCでも黄老が再び強調し、この算力システムを駆使して、10億規模のロボットが誕生できると特に述べました。トレーニングから展開まで、すべての算力はNVIDIAを使用しています。この部分も完全に閉じられています。

まとめ

前の世代のBlackwellチップと単純に比較すると、Blackwell Ultraはハードウェア面で以前の「核弾頭」や「王手」といった形容詞には確かに及ばない、歯磨き粉を絞るような感じさえします。

しかし、ルートマップの観点から見ると、これらはすべて黄仁勋の配置の中にあり、来年、再来年のRubinアーキテクチャは、チップ製造プロセスからトランジスタ、ラックの統合度、GPUインターコネクト、ラックインターコネクトなどの仕様が大幅に向上する予定です。中国人が慣用的に言うように、「)」。

ハードウェアレベルでの空腹を満たすために絵を描くことに比べて、これらの2年間、NVIDIAはソフトウェアレベルでまさに猛進しています。

英ウィダのソフトウェアエコシステム全体を考えると、Meno、Nim、Blueprintの3つのレベルのサービスでは、モデルの最適化、モデルのパッケージ化、アプリケーション構築に至るまでのフルスタックソリューションがすべて含まれています。クラウドサービス企業のエコシステムでは、英ウィダAIが完全に一致しています。今回の新しいAgentも加えると、AIインフラ領域は、英ウィダが基本モデル以外のすべての部分を取り込む必要がある分野です。

ソフトウェアの部分では、老黄の食欲はNVIDIAの株価と同じくらい大きいです。

そして、ロボット市場では、NVIDIAの野望はさらに大きいです。モデル、データ、計算能力の三要素をすべて手中におさめています。基本言語モデルの先頭に立つことができなかったが、基本的な物理知能を補完します。はっきりとした姿を持つ、物理知能版の独占巨大企業が既に地平線に現れています。

ここでは、各段階、各製品には潜在的な数千億ドル規模の市場が対応しています。以前、一攫千金を狙っていた幸運なギャンブラーのファン・レンフンは、GPUの独占によって得たお金で、より大きな賭けを始めました。

この賭けの場で、ソフトウェアまたはロボット市場のいずれかが独占するなら、NVIDIAはAI時代のGoogleであり、食物連鎖のトップモノポリストです。

ただ、NVIDIA GPUの利益率を見ると、このような未来を期待しています。

幸いなことに、これは老黄にとって今まで取り扱ったことのない大きな賭けであり、勝敗は予測できません。

GTC45.48%
UOS-0.6%
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • 1
  • リポスト
  • 共有
コメント
0/400
コメントなし
  • ピン