著者:Ben Thompson算力让AI学会思考,记忆让Agent学会干活。Cerebras上場の今週、Ben Thompsonの最新記事が語る:AIは「チャット」から「自主的なタスク実行」へ進化し、チップアーキテクチャのボトルネックが変わった。あなたが豆包と話すのは速度のため; Kimi Clawがあなたの代わりに5時間のタスクを走らせるとき、速さが3秒早いか30秒遅いかは気にしない——気にするのは、文脈を記憶できるか、継続して働き続けられるかだ。1ステップごとに、作業記憶(KVキャッシュ)は膨らむ。GPUは「画面前で待つ人向け」に設計されている:プリフェッチ時にVRAMがアイドル状態、デコード時に計算能力がアイドル状態——半分の時間はただ待つだけ。本当に詰まるのは、計算速度ではなく、どれだけ記憶できるか、どれだけ高速に読めるかだ。より本質的には、long-running agentはKVキャッシュを一時的なバッファから永続的な作業記憶へと変えることだ。誰がこの記憶をより長く保持し、再利用率を高め、コストを下げられるかが、Agent経済の要所を握る。これがスコアよりも重要だ。上場のタイミングについて言えば、2026年5月にチップ会社を作るのはほぼ理想的だ。ロイターの週末報道:> 2名の関係者が日曜にロイターに語ったところによると、市場のこのAIチップ企業の株式需要が引き続き高まる中、Cerebras Systemsは最速で月曜日にIPOの発行規模と価格を引き上げる見込みだ。関係者は、発行価格帯を当初の1株115〜125ドルから150〜160ドルに引き上げ、発行株数も2800万株から3000万株に拡大することを検討していると述べた。ただし、情報は未公開のため、両者とも匿名を条件とした。半導体株のこの持続的な上昇の根底にはもちろんAIがある——特に、市場が次第に気づき始めている:**インテリジェントエージェント(Agents)は膨大な計算能力(Compute)を飲み込む。**しかし、Cerebrasが示す命題はより広い:これまでのAIの計算力の物語はほぼGPU、Nvidiaだけに関するものだったが、今後は**異種化(Heterogeneous)**が進む。GPU時代-----GPUがAIの中心となった物語はすでに語り尽くされている。簡潔に言えば:* 画面上のピクセル描画は並列処理(Parallel process)——処理ユニットが多いほどグラフィックレンダリングは速くなる——のと同じように、AI計算も同じ:処理ユニットの数が計算速度を決める。* Nvidiaはこの「二重用途」を巧みに掴んだ:グラフィックス処理器をプログラマブル(Programmable)にし、CUDAという完全なソフトウェアエコシステムを通じて、すべての開発者にこのプログラミング能力を提供した。* グラフィックスとAIの根本的な違いは問題の規模——モデルは動画ゲームのテクスチャよりもはるかに巨大だ。これにより二つの連鎖的進化が生まれる:高帯域幅メモリ(HBM、高速バンド幅メモリ)の容量が急激に拡大;チップ間の通信(Chip-to-chip networking)も大きな突破口を迎え、多数のチップを一つのアドレス可能なシステムとして協調動作させることが可能になった。この二つの点で、Nvidiaはリードしている。* GPUの最重要用途は訓練であり、これは上記の第三点に特に厳しい。訓練の各ステップは高度に並列だが、ステップ間はシリアル:次のステップに進む前に、各GPUは結果を全てのGPUと同期させる必要がある。これが、1兆パラメータのモデルを数万GPUの総メモリに収め、GPU間がまるで一台のマシンのように通信できる必要がある理由だ。Nvidiaはこの二つの課題を同時に支配している:一つは、全業界に先駆けてHBM供給を確保したこと、もう一つは長期にわたるネットワーク技術への投資だ。もちろん、訓練だけがAIの唯一のワークロードではない。もう一つは**推論(Inference)**だ。推論には三つの主要な部分がある:**1、プリフェル(Prefill)**:大規模言語モデル(LLM)が理解すべきすべての内容をエンコードし、理解可能な状態にする。これは高度に並列化され、計算能力が決定的。**2、最初のデコード(Decode Part 1)**:KVキャッシュ(KV Cache)を読み出す——文脈やプリフェル段階の出力を格納している——これにより注意力計算を行う。帯域幅が極めて重要なシリアルステップであり、メモリ需要は変動し増大し続ける。**3、二つ目のデコード(Decode Part 2)**:モデルの重み上での前向きフィードフォワード計算(Feed-forward computation);これも帯域幅が重要なシリアルステップであり、メモリ需要はモデルのサイズに依存する。これら二つのデコードはモデルの各層で交互に行われる(交錯して動作し、単純な順次ではない)。つまり、**デコードはシリアルであり、メモリ帯域幅の制約を受ける(Memory-bandwidth bound)。** 1トークンを生成するたびに、二つの異なるメモリプール——文脈を格納し、トークンごとに増加するKVキャッシュと、モデルの重み——を完全に読み出す必要がある。両者を完全に読み出さなければ、単一の出力トークンは生成できない。GPUはこの三つのニーズに完璧に応える:プリフェルに高い計算能力を提供し、KVキャッシュと重みには十分なHBMを供給し、メモリ不足時にはチップ間の連結でメモリプールを拡張できる。言い換えれば、訓練に適したアーキテクチャは推論にも適用できる——SpaceXとAnthropicの契約を見るとそれがわかる。Anthropicは公式ブログでこう述べている:> 「私たちはSpaceX Colossus 1データセンターのすべての計算容量を使用する契約を締結しました。これにより、300メガワット超の新容量(22万以上のNvidia GPUに相当)を獲得し、Claude ProとClaude Maxのサービス能力を直接向上させます。」SpaceXはColossus 2も保持しており、これは将来のモデル訓練や既存モデルの推論に使われると推測される。彼らが同じデータセンターで両方を行えるのは、xAIのモデルの使用量が今は少ないからだ。より重要なのは、訓練と推論の両方がGPU上で完結できる点だ。実際、Anthropicが契約したGPUはもともと訓練用だったものも多く、GPUの柔軟性は大きなアドバンテージだ。Cerebrasの解読----------Cerebrasが作るものは全く異なる。シリコンウエハーの直径は300mmだが、「レチクルリミット」(Reticle limit)——露光装置がウエハー上に最大で露光できる面積——は約26mm×33mm。これはチップの実効サイズの上限であり、これを超えるにはチップ間の「仲介層」(interposer)を使って二つの独立したチップを接続する必要がある。これはNvidiaの**B200**でも行われている技術だ。Cerebrasは、「スクリブライン」(Scribe lines、露光間の境界)を越えた配線方法を発明し、**一つのシリコンウエハー全体を一つのチップにする**ことに成功した。これにより、遅いチップ間通信を避けられる。結果は、驚異的な計算能力と大量の**SRAM**を持ち、アクセス速度も非常に高速なチップだ。比較データ:Cerebrasの最新**WSE-3**は44GBのオンチップSRAMを持ち、帯域は**21 PB/s**;一方、Nvidiaの**H100**は80GBのHBMを持ち、帯域は**3.35 TB/s**。つまり、WSE-3のメモリはH100の半分強だが、**メモリ帯域は6000倍**。この比較は、推論分野で最も広く使われているH100と比べているためだ。推論はCerebrasの得意分野だ。訓練も可能だが、チップ間のネットワークはあまり魅力的ではなく、多くの計算能力とメモリが遊んでしまう。真に価値があるのは、GPUをはるかに超える速度でトークンを生成できる点だ。ただし、訓練の制約は推論にもある。すべてのデータがオンチップメモリに収まる限り、Cerebrasの速度は極上だ。**メモリ需要が上限を超えたとき**(モデルが大きすぎる、またはKVキャッシュが長すぎる場合)、**Cerebrasは非合理的になる**し、特に価格面での課題もある。この「一枚のウエハーを一つのチップにする」技術は高い歩留まりの難しさを伴い、コストを大きく押し上げる。それでも、私はCerebrasのスタイルのチップには市場があると考えている。現在、同社は速度のプログラミングへの実用性を強調している——推論は大量のトークン生成を必要とし、これが思考速度の向上に直結するからだ。ただし、これは一時的なユースケースだと考えている。後述する理由もある。重要なのは、人間が答えを得るまでにどれだけ待つかだ。AIがウェアラブルデバイスなどの普及とともに、インタラクションの速度(特に音声、トークン生成速度次第)がユーザー体験に実質的な影響を与える点だ。インテリジェントエージェント推論(Agentic Inference)----------------------私は以前、LLM時代の3つの転換点を提唱した:**1、ChatGPT**がトークン予測の実用性を証明。**2、o1**が推論の概念を導入、より多くのトークンがより良い答えをもたらす。**3、Opus 4.5とClaude Code**が最初の実用的な**エージェント(Agents)**を導入、推論モデルとツール使用や作業検証のフレームワークを用いて実際にタスクを完遂。これらはすべて「推論」の範疇だが、私は、「答えを出す(Answer inference)」——いわゆる「応答推論」——と、「タスクを実行する(Agentic inference)」——エージェント推論——の境界が次第に明確になりつつあると考える。Cerebrasのターゲット市場は「応答推論」だ。一方、長期的には、「エージェント推論」のアーキテクチャはCerebrasやGPUの路線と全く異なるものになるだろう。私は以前、高速推論はプログラミングの一時的なユースケースだと述べた。具体的には、現状のLLMプログラミングは人間の関与が必要だ。人間がタスクを定義し、コードを確認し、プルリクエスト(PR)を出す。だが、将来的にはこれらすべてが機械だけで完結することも予想される。これが、エージェントの仕事の本質——人間の介入なしに自律的に働く——だ。これにより、エージェント推論の最適解は応答推論と大きく異なる。応答推論はトークン速度を最重視するが、**エージェント推論は記憶(Memory)を最重視**する。エージェントは文脈、状態、履歴を必要とし、その一部は活性化されたKVキャッシュに、また一部はホストのメモリやSSDに、さらに多くはデータベースやログ、埋め込み、オブジェクトストレージに存在する。ポイントは、**エージェント推論はGPUが問題に答えるだけではなく、複雑なメモリ階層システムを構築することになる**。このエージェント専用のメモリ階層は、**速度と容量のトレードオフ**を示唆している。そして、もしリアルタイムの人間の関与が不要なら、遅延はそれほど重要ではなくなる。夜間に動かすエージェントは、遅延を気にせず、ただタスクを完了さえすれば良い。複雑なタスクを可能にする新しいメモリ手法があれば、多少の遅延は許容される。一方、遅延が重要でなくなると、極限の計算能力と高帯域幅メモリ(HBM)の追求は無意味になる。遅延が硬い制約でなければ、より遅くて安価なメモリ(例:従来の**DRAM**)の方が魅力的だ。システム全体がメモリ応答待ちに支配されるなら、最先端の製造プロセスは不要となる。これにより、アーキテクチャは根本的に変わるが、既存の訓練用アーキテクチャが消えるわけではない。訓練(Training)は引き続き重要であり、Nvidiaの高計算能力・高帯域幅・高速ネットワークを備えたアーキテクチャは今後も支配的だ。**応答推論(Answer inference)**は、重要だが比較的小さな市場となるだろう。極限の速度(例:CerebrasやGroq)は非常に有用だ。**エージェント推論(Agentic inference)**は、GPUから徐々に切り離されていく。GPUはプリフェル時にメモリを浪費し、デコード時に計算を浪費する短所が浮き彫りになる。代わりに、高容量・低コストのメモリを持つシステムが主流となり、「十分な計算能力」を備える。実際、ツール呼び出しの速度はGPUよりもCPUの方が重要になる可能性もある。これらのカテゴリーは規模や重要性に差がある。特に、**エージェント推論は未来の最大の市場**になるだろう。なぜなら、それは人間の数や時間に制約されず、計算能力の拡大に比例して成長するからだ。今日のエージェントは応答推論の華やかさだけだが、未来の真のエージェント推論は、コンピュータが他のコンピュータの指示に従って仕事を完遂するものであり、その市場規模は人口増加ではなく計算能力の拡張に依存する。エージェント推論が算力に与える示唆------------これまで、「算力拡大に伴う進化」と言えば、Nvidiaへの期待を暗に含んでいた。しかし、Nvidiaのこれまでの優位性は、遅延に大きく依存している。Nvidiaのチップは計算速度が非常に速いが、そのためにはHBMやネットワークの拡張に巨額投資が必要だ。遅延がもはや制約でなくなるなら、Nvidiaの高コスト戦略は見直しが必要になる。Nvidiaもこの変化を認識している。彼らは**Dynamo**という推論フレームワークを導入し、推論の異なる部分を解体、より大きなKVキャッシュや高速ツール呼び出しを可能にする独立したメモリやCPUラックを展開している。これにより、高価なGPUを忙しくさせ続けることができる。しかし、最終的には、コストとシンプルさを重視する大規模クラウド事業者は、GPUに依存しないエージェント推論の代替手段を模索するだろう。一方、中国は最先端の計算能力に乏しいが、エージェント推論に必要なものはすべて持っている。十分な高速GPU、CPU、DRAM、HDDなどだ。課題は訓練用の計算能力だが、応答推論は国家安全保障(特に軍事用途)においてより重要になる可能性もある。もう一つの興味深い視点は**宇宙(Space)**だ。遅いチップは「宇宙データセンター」の実現性を高める。まず、メモリを外付けできれば、チップはよりシンプルに、冷却も容易になる。次に、古い製造プロセスは物理的に大きいため、宇宙放射線に対して耐性が高い。さらに、古いプロセスは消費電力も低く、放熱も少なくて済む。最後に、最先端の微細化は信頼性を犠牲にしやすいが、古いプロセスは信頼性が高く、修理不能な衛星には特に有利だ。NvidiaのCEO黄仁勋はよく「ムーアの法則は死んだ」と言う。彼の意図は、今後の速度向上はシステムレベルの革新に依存するということだ。しかし、エージェントが人間から独立して動き出す未来において、最も深い示唆は次の通りだ:**ムーアの法則はもはや重要ではない。私たちがより多くの計算能力を得る方法は、実は「既に持っている計算能力は十分すぎるほど良い」と気づくことだ。**
Cerebrasを理解する:計算能力がAIの思考を促進し、記憶がエージェントの行動を支援する
著者:Ben Thompson
算力让AI学会思考,记忆让Agent学会干活。
Cerebras上場の今週、Ben Thompsonの最新記事が語る:AIは「チャット」から「自主的なタスク実行」へ進化し、チップアーキテクチャのボトルネックが変わった。
あなたが豆包と話すのは速度のため; Kimi Clawがあなたの代わりに5時間のタスクを走らせるとき、速さが3秒早いか30秒遅いかは気にしない——気にするのは、文脈を記憶できるか、継続して働き続けられるかだ。1ステップごとに、作業記憶(KVキャッシュ)は膨らむ。GPUは「画面前で待つ人向け」に設計されている:プリフェッチ時にVRAMがアイドル状態、デコード時に計算能力がアイドル状態——半分の時間はただ待つだけ。
本当に詰まるのは、計算速度ではなく、どれだけ記憶できるか、どれだけ高速に読めるかだ。より本質的には、long-running agentはKVキャッシュを一時的なバッファから永続的な作業記憶へと変えることだ。誰がこの記憶をより長く保持し、再利用率を高め、コストを下げられるかが、Agent経済の要所を握る。
これがスコアよりも重要だ。
上場のタイミングについて言えば、2026年5月にチップ会社を作るのはほぼ理想的だ。ロイターの週末報道:
半導体株のこの持続的な上昇の根底にはもちろんAIがある——特に、市場が次第に気づき始めている:**インテリジェントエージェント(Agents)は膨大な計算能力(Compute)を飲み込む。しかし、Cerebrasが示す命題はより広い:これまでのAIの計算力の物語はほぼGPU、Nvidiaだけに関するものだったが、今後は異種化(Heterogeneous)**が進む。
GPU時代
GPUがAIの中心となった物語はすでに語り尽くされている。簡潔に言えば:
画面上のピクセル描画は並列処理(Parallel process)——処理ユニットが多いほどグラフィックレンダリングは速くなる——のと同じように、AI計算も同じ:処理ユニットの数が計算速度を決める。
Nvidiaはこの「二重用途」を巧みに掴んだ:グラフィックス処理器をプログラマブル(Programmable)にし、CUDAという完全なソフトウェアエコシステムを通じて、すべての開発者にこのプログラミング能力を提供した。
グラフィックスとAIの根本的な違いは問題の規模——モデルは動画ゲームのテクスチャよりもはるかに巨大だ。これにより二つの連鎖的進化が生まれる:高帯域幅メモリ(HBM、高速バンド幅メモリ)の容量が急激に拡大;チップ間の通信(Chip-to-chip networking)も大きな突破口を迎え、多数のチップを一つのアドレス可能なシステムとして協調動作させることが可能になった。この二つの点で、Nvidiaはリードしている。
GPUの最重要用途は訓練であり、これは上記の第三点に特に厳しい。訓練の各ステップは高度に並列だが、ステップ間はシリアル:次のステップに進む前に、各GPUは結果を全てのGPUと同期させる必要がある。これが、1兆パラメータのモデルを数万GPUの総メモリに収め、GPU間がまるで一台のマシンのように通信できる必要がある理由だ。Nvidiaはこの二つの課題を同時に支配している:一つは、全業界に先駆けてHBM供給を確保したこと、もう一つは長期にわたるネットワーク技術への投資だ。
もちろん、訓練だけがAIの唯一のワークロードではない。もう一つは**推論(Inference)**だ。推論には三つの主要な部分がある:
1、プリフェル(Prefill):大規模言語モデル(LLM)が理解すべきすべての内容をエンコードし、理解可能な状態にする。これは高度に並列化され、計算能力が決定的。
2、最初のデコード(Decode Part 1):KVキャッシュ(KV Cache)を読み出す——文脈やプリフェル段階の出力を格納している——これにより注意力計算を行う。帯域幅が極めて重要なシリアルステップであり、メモリ需要は変動し増大し続ける。
3、二つ目のデコード(Decode Part 2):モデルの重み上での前向きフィードフォワード計算(Feed-forward computation);これも帯域幅が重要なシリアルステップであり、メモリ需要はモデルのサイズに依存する。
これら二つのデコードはモデルの各層で交互に行われる(交錯して動作し、単純な順次ではない)。つまり、デコードはシリアルであり、メモリ帯域幅の制約を受ける(Memory-bandwidth bound)。 1トークンを生成するたびに、二つの異なるメモリプール——文脈を格納し、トークンごとに増加するKVキャッシュと、モデルの重み——を完全に読み出す必要がある。両者を完全に読み出さなければ、単一の出力トークンは生成できない。
GPUはこの三つのニーズに完璧に応える:プリフェルに高い計算能力を提供し、KVキャッシュと重みには十分なHBMを供給し、メモリ不足時にはチップ間の連結でメモリプールを拡張できる。言い換えれば、訓練に適したアーキテクチャは推論にも適用できる——SpaceXとAnthropicの契約を見るとそれがわかる。Anthropicは公式ブログでこう述べている:
SpaceXはColossus 2も保持しており、これは将来のモデル訓練や既存モデルの推論に使われると推測される。彼らが同じデータセンターで両方を行えるのは、xAIのモデルの使用量が今は少ないからだ。より重要なのは、訓練と推論の両方がGPU上で完結できる点だ。実際、Anthropicが契約したGPUはもともと訓練用だったものも多く、GPUの柔軟性は大きなアドバンテージだ。
Cerebrasの解読
Cerebrasが作るものは全く異なる。シリコンウエハーの直径は300mmだが、「レチクルリミット」(Reticle limit)——露光装置がウエハー上に最大で露光できる面積——は約26mm×33mm。これはチップの実効サイズの上限であり、これを超えるにはチップ間の「仲介層」(interposer)を使って二つの独立したチップを接続する必要がある。これはNvidiaのB200でも行われている技術だ。Cerebrasは、「スクリブライン」(Scribe lines、露光間の境界)を越えた配線方法を発明し、一つのシリコンウエハー全体を一つのチップにすることに成功した。これにより、遅いチップ間通信を避けられる。
結果は、驚異的な計算能力と大量のSRAMを持ち、アクセス速度も非常に高速なチップだ。比較データ:Cerebrasの最新WSE-3は44GBのオンチップSRAMを持ち、帯域は21 PB/s;一方、NvidiaのH100は80GBのHBMを持ち、帯域は3.35 TB/s。つまり、WSE-3のメモリはH100の半分強だが、メモリ帯域は6000倍。
この比較は、推論分野で最も広く使われているH100と比べているためだ。推論はCerebrasの得意分野だ。訓練も可能だが、チップ間のネットワークはあまり魅力的ではなく、多くの計算能力とメモリが遊んでしまう。真に価値があるのは、GPUをはるかに超える速度でトークンを生成できる点だ。
ただし、訓練の制約は推論にもある。すべてのデータがオンチップメモリに収まる限り、Cerebrasの速度は極上だ。メモリ需要が上限を超えたとき(モデルが大きすぎる、またはKVキャッシュが長すぎる場合)、Cerebrasは非合理的になるし、特に価格面での課題もある。この「一枚のウエハーを一つのチップにする」技術は高い歩留まりの難しさを伴い、コストを大きく押し上げる。
それでも、私はCerebrasのスタイルのチップには市場があると考えている。現在、同社は速度のプログラミングへの実用性を強調している——推論は大量のトークン生成を必要とし、これが思考速度の向上に直結するからだ。ただし、これは一時的なユースケースだと考えている。後述する理由もある。重要なのは、人間が答えを得るまでにどれだけ待つかだ。AIがウェアラブルデバイスなどの普及とともに、インタラクションの速度(特に音声、トークン生成速度次第)がユーザー体験に実質的な影響を与える点だ。
インテリジェントエージェント推論(Agentic Inference)
私は以前、LLM時代の3つの転換点を提唱した:
1、ChatGPTがトークン予測の実用性を証明。
2、o1が推論の概念を導入、より多くのトークンがより良い答えをもたらす。
3、Opus 4.5とClaude Codeが最初の実用的な**エージェント(Agents)**を導入、推論モデルとツール使用や作業検証のフレームワークを用いて実際にタスクを完遂。
これらはすべて「推論」の範疇だが、私は、「答えを出す(Answer inference)」——いわゆる「応答推論」——と、「タスクを実行する(Agentic inference)」——エージェント推論——の境界が次第に明確になりつつあると考える。Cerebrasのターゲット市場は「応答推論」だ。一方、長期的には、「エージェント推論」のアーキテクチャはCerebrasやGPUの路線と全く異なるものになるだろう。
私は以前、高速推論はプログラミングの一時的なユースケースだと述べた。具体的には、現状のLLMプログラミングは人間の関与が必要だ。人間がタスクを定義し、コードを確認し、プルリクエスト(PR)を出す。だが、将来的にはこれらすべてが機械だけで完結することも予想される。これが、エージェントの仕事の本質——人間の介入なしに自律的に働く——だ。
これにより、エージェント推論の最適解は応答推論と大きく異なる。応答推論はトークン速度を最重視するが、エージェント推論は記憶(Memory)を最重視する。エージェントは文脈、状態、履歴を必要とし、その一部は活性化されたKVキャッシュに、また一部はホストのメモリやSSDに、さらに多くはデータベースやログ、埋め込み、オブジェクトストレージに存在する。ポイントは、エージェント推論はGPUが問題に答えるだけではなく、複雑なメモリ階層システムを構築することになる。
このエージェント専用のメモリ階層は、速度と容量のトレードオフを示唆している。そして、もしリアルタイムの人間の関与が不要なら、遅延はそれほど重要ではなくなる。夜間に動かすエージェントは、遅延を気にせず、ただタスクを完了さえすれば良い。複雑なタスクを可能にする新しいメモリ手法があれば、多少の遅延は許容される。
一方、遅延が重要でなくなると、極限の計算能力と高帯域幅メモリ(HBM)の追求は無意味になる。遅延が硬い制約でなければ、より遅くて安価なメモリ(例:従来のDRAM)の方が魅力的だ。システム全体がメモリ応答待ちに支配されるなら、最先端の製造プロセスは不要となる。これにより、アーキテクチャは根本的に変わるが、既存の訓練用アーキテクチャが消えるわけではない。
訓練(Training)は引き続き重要であり、Nvidiaの高計算能力・高帯域幅・高速ネットワークを備えたアーキテクチャは今後も支配的だ。
**応答推論(Answer inference)**は、重要だが比較的小さな市場となるだろう。極限の速度(例:CerebrasやGroq)は非常に有用だ。
**エージェント推論(Agentic inference)**は、GPUから徐々に切り離されていく。GPUはプリフェル時にメモリを浪費し、デコード時に計算を浪費する短所が浮き彫りになる。代わりに、高容量・低コストのメモリを持つシステムが主流となり、「十分な計算能力」を備える。実際、ツール呼び出しの速度はGPUよりもCPUの方が重要になる可能性もある。
これらのカテゴリーは規模や重要性に差がある。特に、エージェント推論は未来の最大の市場になるだろう。なぜなら、それは人間の数や時間に制約されず、計算能力の拡大に比例して成長するからだ。今日のエージェントは応答推論の華やかさだけだが、未来の真のエージェント推論は、コンピュータが他のコンピュータの指示に従って仕事を完遂するものであり、その市場規模は人口増加ではなく計算能力の拡張に依存する。
エージェント推論が算力に与える示唆
これまで、「算力拡大に伴う進化」と言えば、Nvidiaへの期待を暗に含んでいた。しかし、Nvidiaのこれまでの優位性は、遅延に大きく依存している。Nvidiaのチップは計算速度が非常に速いが、そのためにはHBMやネットワークの拡張に巨額投資が必要だ。遅延がもはや制約でなくなるなら、Nvidiaの高コスト戦略は見直しが必要になる。
Nvidiaもこの変化を認識している。彼らはDynamoという推論フレームワークを導入し、推論の異なる部分を解体、より大きなKVキャッシュや高速ツール呼び出しを可能にする独立したメモリやCPUラックを展開している。これにより、高価なGPUを忙しくさせ続けることができる。しかし、最終的には、コストとシンプルさを重視する大規模クラウド事業者は、GPUに依存しないエージェント推論の代替手段を模索するだろう。
一方、中国は最先端の計算能力に乏しいが、エージェント推論に必要なものはすべて持っている。十分な高速GPU、CPU、DRAM、HDDなどだ。課題は訓練用の計算能力だが、応答推論は国家安全保障(特に軍事用途)においてより重要になる可能性もある。
もう一つの興味深い視点は**宇宙(Space)**だ。遅いチップは「宇宙データセンター」の実現性を高める。まず、メモリを外付けできれば、チップはよりシンプルに、冷却も容易になる。次に、古い製造プロセスは物理的に大きいため、宇宙放射線に対して耐性が高い。さらに、古いプロセスは消費電力も低く、放熱も少なくて済む。最後に、最先端の微細化は信頼性を犠牲にしやすいが、古いプロセスは信頼性が高く、修理不能な衛星には特に有利だ。
NvidiaのCEO黄仁勋はよく「ムーアの法則は死んだ」と言う。彼の意図は、今後の速度向上はシステムレベルの革新に依存するということだ。しかし、エージェントが人間から独立して動き出す未来において、最も深い示唆は次の通りだ:ムーアの法則はもはや重要ではない。私たちがより多くの計算能力を得る方法は、実は「既に持っている計算能力は十分すぎるほど良い」と気づくことだ。