AI推理時代は本当に到来したのか？GPU、CPU、ASICによる三極の計算力再構築

Question

2026年6月22日、美股の半導体セクターは全面的に大幅上昇——フィラデルフィア半導体指数は一日で6.42％上昇し、インテルはアップルとの協力によるチップ生産のニュースで10％超の上昇、TSMCのADRは6.94％上昇し462.12ドルで終値を迎え、NVIDIAは約3％上昇した。市場の感情の背後には、加速して実現しつつある産業判断がある：AIの計算能力需要構造は、トレーニング駆動から推論駆動へと変化している。

業界分析によると、推論はAI総計算能力需要の約3分の1から2026年には3分の2に増加し、2028年から2030年には70％から85％に達すると予測されている。この構造的変化は、チップ競争の主戦場を再定義している——「誰のGPUが最も速くトレーニングできるか」から「誰のチップが最も低コストで推論でき、スループットが高いか」へと。

世界のAI推論用チップ市場は2024年に854億ドルの価値を持ち、2025年の1054.7億ドルから2033年には5707.7億ドルに成長すると予測されており、予測期間中の複合年間成長率は23.5％である。その中で、クラウドAI推論チップ市場は2025年に1021.9億ドルと見積もられ、2026年には1189億ドルに拡大し、2032年には3209.8億ドルに達する見込みだ。同時に、世界のエッジAIチップセット（推論とトレーニング合計）の市場規模は、2026年の344億ドルから2031年には960億ドルに拡大する見込みだ。

この拡大サイクルの中で、チップの種類間の力関係に微妙かつ深遠な変化が起きている。GPUは依然として最大の市場占有者であり、トレーニングと推論の両方の需要を支え、2031年までに20％の複合年間成長率を維持すると予測されている。しかし、人工知能ASICは、多くの機関から最も急速に成長している細分化された分野と見なされている。JPモルガンのアナリストは、デジタルAI ASIC市場は2026年に約600億から700億ドルに達し、今後数年間は40％から50％以上の複合成長率を維持すると推定している。

さらに注目すべきは、CPUの復活である。過去3年間、CPUはAIの物語の中で長らく脇役に過ぎなかったが、推論需要の爆発的な拡大がこの状況を変えつつある。

CPUが舞台の中央に再び立つ理由

AIの推論とトレーニングは、計算ロジック上で本質的な違いがある。トレーニングは大規模並列の行列演算プロセスであり、数兆回の浮動小数点演算を数万のGPUコアで同時に行うことができる。これがGPUの絶対的な強みの領域だ。しかし、推論、特にエージェント型AI（Agentic AI）の推論は、タスクのオーケストレーション、ツール呼び出し、多段階の論理判断、逐次的な意思決定を含む。これらの作業負荷は純粋な並列計算ではなく、多くはCPUが得意とする複雑な論理制御と逐次処理能力に依存している。

ジョージア工科大学とインテルの研究によると、エージェント型AIのシナリオでは、遅延の50％から90％が計算能力チップではなくCPUに由来している。大規模モデルはプラグインの呼び出し、ネット検索、多段階の論理処理を行う必要があり、これらはすべてCPUのスケジューリングに依存しているためだ。NVIDIA自身も2026年3月にこの現実を認めている。同社の幹部Dion Harrisは、「CPUはAIワークフローのボトルネックになりつつある」と公に述べている——これは、「GPUだけがAIに必要な唯一のチップ」という産業信念を持つ企業からの発言だ。

この傾向は、構成比の変化からより直感的に理解できる。AIトレーニング段階では、CPUとGPUの構成比は通常1:8の極端な状態で、GPUがほとんどの計算負荷を担う。しかし、推論時代に入ると、TrendForceの報告によると、この比率は急速に1:1から1:2の範囲に近づいている。インテルのCEO、陳立武は2026年第1四半期の決算電話会議で、トレーニング負荷は通常7〜8個のGPUと1つのCPUを必要とし、推論負荷はすでに3〜4個のGPUと1つのCPUに縮小されており、今後さらに1:1のバランスに向かう可能性があると指摘している。

NVIDIAのCEO、黄仁勋の推定を参考にすると、1GWのデータセンターには約30万個のRubin GPUが必要とされる。一方、各ARM CPUのコア数は136個であり、1GWのデータセンターには約22.1万個のCPUが必要となる。新たなCPUとGPUの比率は約1:1.4となる。これは、過去のGPU主導時代の比率と比べて、CPUの地位が大きく向上したことを示している。

GPUの優位性と推論シナリオの課題

CPUが地位を取り戻しつつある一方で、GPUはAI推論段階で依然として不可欠な存在であり、その核心はメモリ帯域と並列スループットの二つの次元にある。

LLM（大規模言語モデル）の推論過程では、各トークンの生成に数億から数百億のパラメータを読み込む必要があり、典型的なメモリ集約型のタスクだ。CPU方案はシステムのDDRメモリに依存し、帯域幅は通常50〜100GB/sの規模だ。一方、GPUはGDDR6XやHBMメモリを採用し、帯域幅は800GB/s以上に達し、ハイエンドGPUのHBM2eメモリは1.5TB/sに達し、CPUの20倍の速度を誇る。Llama 3.1 8Bモデルの推論では、CPU方案の単一タスク速度はわずか819トークン/秒だが、8GPUのクラスターは46,841トークン/秒に達する。並列リクエストが増加すると、CPUの性能は819トークン/秒から急激に257トークン/秒に低下し、8GPUクラスターはほとんど性能低下しない。

計算密度の面では、GPUは数千のCUDAコアによる並列化を実現し、FP4/FP8などの低精度フォーマットをサポートし、数百TFLOPSの演算能力を持つ。一方、CPUのFP32演算能力は通常1〜10 TFLOPSの規模だ。

これらのデータは、高スループットと高並列性を必要とする推論シナリオ——例えば大規模ユーザー向けのクラウドAIサービス——において、GPUが依然として最適解であることを示している。NVIDIAはこの分野での支配的地位を未だに維持している。SemiAnalysisのデータによると、2026年第1四半期のNVIDIAのAIトレーニングチップ市場占有率は92％、推論チップ市場占有率は78％だ。IDCの推定では、NVIDIAはAIチップ市場の約81％を支配している。AIアクセラレータ市場は2025年に約1600億ドルと見積もられ、2026年には2000億ドル超に向かって拡大し、推論支出はその約3分の2を占めると予測されている。

しかし、GPUの推論シナリオにおけるシェアは、CPUの復帰、ASICの専用化競争、コスト構造の現実的な考慮から、複数の圧力に直面している。

CPUメーカーの推論反撃戦

CPUの推論段階での価値再評価は、すでに市場の動きとして具体化している。

データセンター向けプロセッサ市場は、生成型AIのワークロード需要の急増により急速に拡大しており、2025年の2150億ドルから2031年には6560億ドルに拡大すると予測されている。国海証券は、超大規模データセンターは「アップグレードサイクル」に入りつつあり、2026年のサーバーCPU出荷量は25％増加すると見ている。

AMDはこのトレンドの顕著な恩恵を受けている。AIサーバー需要によりEPYC CPUの出荷量が増加し、第五世代のTurinはサーバーCPU市場で大きなシェアを占めつつある。2026年にはサーバーCPU事業は少なくとも50％増加すると予測されている。バーンズスタインのアナリストは、AMDのフラッグシップEPYCプロセッサの2026年の売上高は30％増と予測している。データセンター向けCPU市場では、2026年初頭時点で、インテルが約60％のシェアを持ち、AMDは約24％、NVIDIAは約6％だ。AMDはまた、Instinctアクセラレータを用いてAI GPU市場でNVIDIAと競合し、推論時代の二重戦略において独自の位置を築いている。

インテルも積極的に戦略を調整している。2026年6月のComputexで、インテルの新CEO、陳立武は、18Aプロセスとラックレベルのデカップリングアーキテクチャを掲げ、推論時代にCPUが再び主役となると宣言した。AIインフラは「フルセット購入」から「レゴ積み」へとシフトしている。インテルのXeonプロセッサには、高度な行列拡張（AMX）技術が内蔵されており、GPUや他のAIアクセラレータを未搭載でも、中小規模の大規模言語モデルの推論を加速できる。

最も象徴的な変化は、NVIDIA自身からもたらされている。このGPU時代を定義した企業は、2026年にGraceとVera CPUラインを次々と発表し、Vera CPUは推論とエージェント型AIのために設計された。NVIDIAは2026年にCPU事業の収益が200億ドルに達すると見込んでいる。さらに、NVIDIAとArmは2026年に独立したCPU製品を次々とリリースし、このGPU巨人が正式にCPU市場に参入したことを示している。

ASICと専用チップ：第三の道の台頭

GPUとCPUの二元的な物語の外側で、ASIC（特定用途向け集積回路）は推論市場で最も成長の早い変数となっている。

TD Cowenは、商用アクセラレータのシェアは2025年の約91％から2030年には約75％に低下し、カスタムASICは約9％から約25％に増加すると予測している。ASICサーバーの出荷は2026年に44.6％増加し、GPUサーバーの出荷増加率は16.1％にとどまり、ASICの3分の1以下だ。

超大規模クラウド事業者は、自社開発の推論用ASICの加速を進めている。Google TPU、AWS Inferentia、Meta MTIA、GroqのLPU（言語処理ユニット）など、推論に最適化されたASICチップが次々と登場している。Broadcomは2026年第2四半期にAI収益が108億ドルに達し、前年比143％増、年間のAI収益見通しは560億ドルで前年比180％増と予測されている。Broadcomは、カスタムAIチップ市場の約60％のシェアを獲得すると見込まれている。

このトレンドは、推論用チップ市場が「汎用GPU主導」から「GPU＋CPU＋ASIC」の多元的な構造へと移行していることを意味している。GPUは高負荷のトレーニングと大規模推論を担当し、CPUはタスクのオーケストレーションとシステム制御を担い、ASICは特定の推論負荷において極致のエネルギー効率を実現する。

コスト構造と推論経済学の再構築

推論段階のチップ選択は、最終的に「1百万トークンあたりの推論コスト」という核心的な問題に帰着する。

トレーニング段階では、モデルの精度と訓練時間が最優先され、コストの許容度は高い。しかし、推論は継続的で高頻度の生産活動であり、API呼び出しやユーザーリクエストごとに直接コストが発生する。これにより、推論用チップの競争は「絶対性能」から「単位コストあたりの有効スループット」へと変化している。

GPU方案はハードウェアの調達コストが高い。例えば、AMDのMI300Xは約1万〜1.5万ドルで販売されているのに対し、NVIDIAのH100は2.5万〜4万ドルだ。しかし、単位演算能力あたりのコストは低い——あるクラウド事業者のオンデマンドインスタンスを例にとると、GPUインスタンスの1秒あたりトークン生成コストはCPUインスタンスの40％〜60％低い。CPU方案は追加ハードウェア投資不要であり、低並列・低遅延の単一タスクには適している。

しかし、推論規模の拡大に伴い、CPU方案の限界コストはより速く上昇する。並列リクエストが増加すると、CPUはタイムスライスによるタスクスケジューリングを行い、コンテキストスイッチのオーバーヘッドが指数関数的に増加する。これにより、大規模推論展開では、GPUやASICの高い初期投資が、より高いスループットと低い単位コストによる長期的ROIの向上をもたらす。

結び

推論の計算能力需要比率が3分の1から3分の2に上昇した背景には、チップ産業の競争ロジックの深層的な変化がある。

NVIDIAにとって、トレーニング市場での絶対的優位（約90％のシェア）は短期的に揺るぎにくいが、推論市場の増分競争はより激しくなるだろう。New Street Researchは、最も楽観的な予測として、2028年までにNVIDIAの推論シェアが20％〜30％に低下する可能性を示している。たとえBloomberg Intelligenceの保守的な予測通り、2030年までにNVIDIAが70％〜75％のシェアを維持するとしても、ASICの出荷増がGPUを大きく上回る事実は変わらない。

AMDとインテルにとっては、推論時代のCPU需要の回復は、構造的なチャンスだ。AMDはEPYC CPUとInstinct GPUの二重戦略を展開し、インテルは18Aプロセスと次世代Xeonの継続的な進化を通じて、この機会をつかもうとしている。

クラウド事業者やAIアプリ開発者にとっては、チップ選択肢の増加は、より細やかなコスト最適化の余地をもたらす。汎用GPUからカスタムASICへ、CPU推論からGPUアクセラレーションへと、ハードウェア選択はモデル規模、遅延要件、並列度、コスト予算によりますます具体的なニーズに応じて変化していく。

AI推論の計算能力需要は、トレーニングを超える速度で拡大している。この訓練から推論への計算能力の重心シフトは、チップ設計からデータセンターのアーキテクチャ全体を再構築しつつある。GPUはその位置を失わないが、唯一の答えではなくなりつつある。

原文表示

AI推理時代は本当に到来したのか？GPU、CPU、ASICによる三極の計算力再構築

CPUが舞台の中央に再び立つ理由

GPUの優位性と推論シナリオの課題

CPUメーカーの推論反撃戦

ASICと専用チップ：第三の道の台頭

コスト構造と推論経済学の再構築

結び

人気の話題

MyGateTradeStory

IsraelStrikesIranBTCPlunges

PredictWorldCup🇺🇸vs🇵🇾

TradFiCFDGoldMaster

GateProofOfReservesReport

ピン留め