何年も私たちはGPUの不足に夢中になってきた—そこに計算が行われるわけだよね？しかし、実は問題の見方を間違えていた。真の制約はもはや推論ではなく、CPUだ。マジで—複雑なエージェントのワークフローを調整したり、API呼び出しを処理したり、データベースを管理したり、GPUメモリに収まらない巨大なコンテキストウィンドウを扱ったりする必要があるとき、突然あなたのプロセッサがボトルネックになり、高価なGPUはただ待機しているだけになる。

市場で実際に何が起きているのかを解説しよう。AMDのCEOリサ・スーはこの変化が本物であることをほぼ確信させる形で確認した。彼らのデータセンター収益は前四半期で54億ドルに達し、前年比39％増だ。第5世代EPYCプロセッサだけでサーバーCPU収益の半分以上を占めており、EPYCを搭載したクラウドインスタンスの成長率は50％超だ。AMDは初めてサーバーCPU市場の40％超を獲得している。これは偶然ではない—みんなが突然、AIエージェントを大規模に動かすためには本格的なCPUのパワーが必要だと気づいたからだ。

一方、インテルは苦戦しつつも賢く動いている。彼らはGoogleと複数年契約を結び、AIデータセンター向けにXeonプロセッサを展開する計画だ。その売り込みは？ CPUと特殊アクセラレータが今やパフォーマンスの本当の推進力であり、単なるサポート役ではないということだ。イーロン・マスクは自らのTerafabプロジェクトのためにインテルからカスタムチップを発注した—これはインフラの未来を示す巨大なシグナルだ。

これがなぜ重要か？エージェントのワークロードはチャットボットとは根本的に異なる。エージェントでは、ただトークンを生成するだけではなく、多段階の推論を行い、APIを調整し、状態を管理し、データベースに読み書きする。ジョージア工科大学の去年の論文によると、CPU側のツール処理は総遅延の50％から90％を占めることもあるという。GPUは準備万端だが、CPUはツールの応答を待っている状態だ。さらに、今やコンテキストウィンドウは100万トークンを超えることもあり、GPUに収まらないKVキャッシュを格納するために巨大なCPUメモリと帯域幅が必要になる。

NVIDIAの対応も興味深い。彼らのGrace CPUは72コアしか持たないが、これは意図的だ—AMDの128コアやインテルの標準ラインナップと比べて効率性を重視している。彼らは、CPUは単なる汎用プロセッサではなく、調整のハブだという考えを推進している。NVLinkのインターコネクトは1.8TB/sに達し、CPUがGPUメモリに直接アクセスできるため、これにより巨大なKVキャッシュの管理方法が根本的に変わる。

市場のシグナルは明白だ。バンク・オブ・アメリカは、CPU市場が2030年までに$27 十億ドルから$60 十億ドルに倍増すると予測しており、そのほとんどがAIによるものだ。そして驚くなかれ、アマゾンの$38 十億ドル規模のOpenAIとのパートナーシップでは、何千万ものCPUを展開する計画だ。これが新しい指標だ。もはや数十万のGPUを作るだけではなく、CPUの調整インフラ層全体を構築している。

本当に起きていることは、GPUに制約された時代からシステムレベルの効率性の時代へと移行しているということだ。CPU-GPUの協調をバランス良く管理し、巨大なメモリ階層を扱い、複雑なエージェントワークフローを効率的に処理できる企業が勝者になる。もはや個々のコンポーネントの時代ではない。システム全体が連携して動く時代だ。そして、2026年に向けてあなたのCPU戦略を考えていなければ、すでに遅れている。

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。