Claude Sonnet 5発表当日、米国半導体指数は約4%上昇した。過去3年間のAIの物語には一本の明快な線があった:推論効率がチップ需要を打ち負かす。しかし、この判断はあらゆるデータポイントで間違っていた。
値下げ:3年で1000分の1
まず値下げの流れを見てみよう。
2022年、GPT-4レベルのAPI呼び出しコストは約1キロトークンあたり0.03ドルだった。2025年には、同等の性能レベルのモデルの価格——スタンフォードAI Index Reportの基準によれば——約280分の1に下がった。オープンソースと効率向上の総合効果を加えると、業界で認められている低下幅は1000倍だ。
1つのモデルだけでなく、すべての企業が値下げしている。
Anthropicの今回のSonnet 5はOpus 4.8の能力密度に対抗し、価格は4~6割だけだ。GoogleのGemini Omni Flashは動画生成が毎秒0.10ドル、Nano Banana 2 Lite画像モデルは4秒で画像を生成し、1000枚あたりわずか0.034ドル——これは前世代の半分だ。DeepSeek-V4-Proは100万トークン入力を0.035ドルという水準にまで引き下げた。
AIが安ければ安いほど、チップは高くなる。
6月30日、AnthropicはClaude Sonnet 5をリリースした。
これはミッドレンジモデルで、Sonnetシリーズの中でも「最も働き者」とされる。エージェント能力テストSWE-bench Proで63.2点を記録——フラッグシップのOpus 4.8の69.2点とはわずか6点差だ。別の次元では、大学院レベルの推論テストGPQA-AAA v2において、Sonnet 5はOpus 4.8を上回った。
価格設定がより重要だ。割引期間中、入力100万トークンあたり2ドル、出力10ドル。Opus 4.8の対応価格は5ドルと25ドル——Sonnet 5は4~6割の価格で、フラッグシップの9割以上の性能を発揮する。
このニュースには2つの読み方がある。
1つ目:AIはさらに安くなった。コスト低下はすべての人に利益をもたらし、Chatbot戦争は続き、モデルメーカーは激しい競争を繰り広げる。
2つ目——そして市場がまさに価格付けしていることだが——モデルが安くなればなるほど、計算能力とストレージは逆に高くなる。
Claude Sonnet 5発表当日、米国半導体指数は約4%上昇した。過去3年間のAIの物語には一本の明快な線があった:推論効率がチップ需要を打ち負かす。しかし、この判断はあらゆるデータポイントで間違っていた。
値下げ:3年で1000分の1
まず値下げの流れを見てみよう。
2022年、GPT-4レベルのAPI呼び出しコストは約1キロトークンあたり0.03ドルだった。2025年には、同等の性能レベルのモデルの価格——スタンフォードAI Index Reportの基準によれば——約280分の1に下がった。オープンソースと効率向上の総合効果を加えると、業界で認められている低下幅は1000倍だ。
1つのモデルだけでなく、すべての企業が値下げしている。
Anthropicの今回のSonnet 5はOpus 4.8の能力密度に対抗し、価格は4~6割だけだ。GoogleのGemini Omni Flashは動画生成が毎秒0.10ドル、Nano Banana 2 Lite画像モデルは4秒で画像を生成し、1000枚あたりわずか0.034ドル——これは前世代の半分だ。DeepSeek-V4-Proは100万トークン入力を0.035ドルという水準にまで引き下げた。
値下げは価格表だけにとどまらない。
6月24日、The InformationはOpenAIが社内で純粋なソフトウェア最適化技術を発見したと報じた——ある演算工程のGPU必要数が半分以上削減され、専用GPUプールが数千台から数百台に激減した。同月、MetaはVistara方式を提案:退役サーバーから取り外したDDR4メモリを自社開発のCXLチップで再接続し、DDR5と3:1の比率で組み合わせることで、推論サーバーのコストを25%削減するというものだ。
6月30日には、階躍が推測復号技術JetSpecをオープンソース化——大規模モデルの推論速度をほぼ10倍に向上させることができる。換算すると、同じトークン出力量に対して、必要なGPU数を一桁急減させることができる。
もしAIが伝統的なコスト・需要関数ならば、これらのシグナルは一つのことを指し示すはずだ:将来必要とされるチップは減少する。
ウォール街はそう恐れていた。
1月にDeepSeekがR1をリリースした週末、AIインフラ株は近年で最も激しい売り浴びせを受けた。AIクラウド企業Nebiusの株価は40%暴落した。ストーリーは単純だった:中国のオープンソースモデルが0.1ドルでトークンを売る一方、米国企業は2ドルで売る——計算需要は必然的に崩壊する。
爆発:総支出は逆に320%増加
しかし実際に起きたことはまったく逆だった。
Nebiusの共同創業者Roman Cherninは後に回想している:DeepSeekがパニックを引き起こしたその週は、「おそらく我々の営業成績が最も良かった週」だった。企業の購買部門はコスト急落を見た最初の反応として予算を削るのではなく、ついに大規模な推論を実行できると判断した。
2024年、世界企業の生成AI総支出は約115億ドルだった。2025年、この数字は370億ドルに急上昇——1年で320%増加した。Menlo Venturesの企業調査によると、中位企業は2025年に「数十個」のAIアプリケーションを運用しており、2023年の1~2個から増加した。
あらゆる次元のデータが同じ曲線上にある:
Uberは2026年4月の時点で、年間のAI予算を使い尽くしていた。AT&Tは現在、1日あたり270億トークンを処理している——18ヶ月前、この数字は8億だった。ある大手米国医療保険会社では、月間トークン消費が300万から一気に1.5億を超えた。
分解すると、成長は3つの方向からの重ね合わせによる。
言い換えれば、トークンコストは1000分の1に下がり、市場で使用されるトークン数は数万倍に増加した。掛け合わせた正味の効果は一方向だけだ:支出の爆発。
トークン消費量は2ヶ月ごとに倍増——複数の独立した手がかりが同じ数字を描き出している。この指数曲線を2027年まで描くと、企業のAI年間支出が1000億ドルを超えるのは算術の問題であり、予測の問題ではない。
伝達:ストレージは6倍に、チップインフラは7.6兆ドルへ
値下げが刺激した需要はソフトウェア層にとどまらなかった。
メモリ価格の上昇は、AI需要がモデル層からハードウェア層に伝達される最も直接的なシグナルである。
2025年第3四半期以降、DRAMとNAND Flashのスポット価格の累積上昇率はともに300%を超えた。DDR5モジュールは1ヶ月で90%を超える上昇を記録した。2026年に入っても、値上げは止まらず、むしろ加速した。
第1四半期のDRAM契約価格上昇率は、予想の55%-60%から90%-95%に上方修正された。NANDは33%-38%から55%-60%に上方修正された。第2四半期のTrendForceの予測では、DRAMはさらに58%-63%、NANDはさらに70%-75%の上昇が見込まれている。
コンシューマー向け製品をアンカーに:Acer Predator 32G DDR5 6000キットは、2025年10月末にはまだ1300元だったが、2026年1月にはすでに2700元に高騰した。3ヶ月で倍増——これは消費者市場では極めて稀な現象だ。
Samsungのメモリ事業は2025年第4四半期に四半期営業利益の過去最高を記録——20兆ウォン(約962億元)を突破した。そしてこの1年余りの上昇の最も根本的な推進力は、携帯電話やPCのコンシューマー向け世代交代ではなく、AIデータセンターによるHBM、エンタープライズSSD、高密度DRAMの巨額調達である。
ゴールドマン・サックスが5月に発表したレポートは、この計算を極限まで押し進めた。
レポートは、2026年から2031年までの世界のAIインフラ累積資本支出を約7.6兆ドルと予測。2026年単年で7650億ドル、2031年には1.6兆ドルに上昇する。そのうち、単一のベースラインGPU(NVIDIA VR200 Rubinベース)は8万500ドルと計算され、NVIDIAが各期の総計算能力支出の75%を占める。
ゴールドマン・サックスはレポートでさらに重要な問いを追及した:もしASIC(専用チップ)がGPUを大量に代替した場合、総需要を削減できるか?
答えは場合による。もし需要が弾力性に乏しい——企業のAI計算需要が固定されている——ならば、ASIC代替は総資本需要を直接削減できる。しかし需要が弾力的——計算能力が安くなればなるほど多く購入する——ならば、チップ構成の変更は主に異なるサプライヤー間での利益配分を変えるだけであって、総支出規模には影響しない。
ゴールドマン・サックスのベースシナリオは後者を選んだ。
米国株の価格も同じ方向に動いている。サンディスクは年初来857%上昇、Bernsteinは6月30日のレポートで目標株価を3000ドルに引き上げた。AMDは1日で7%上昇し史上最高値を更新。GPUをやる者、ストレージをやる者、パッケージングをやる者、データセンター機器をやる者——すべてが新高値付近にある。
Edgen.techが6月11日の総説記事で引用したこの数字が最も衝撃的だ:メモリチップの価格は過去1年で6倍になった。
「周期的回復」というラベルは貼れない。6倍になったものの背後には、経済システム全体の需要がAIの物理的インフラを再評価していることがある。
根源:Jevonsが1865年にすでに答えていた
ウィリアム・スタンリー・ジェボンズは1865年に『石炭問題』という本を書いた。
彼の核心的な観察は:ワットが蒸気機関を改良した後、単位石炭消費量は大幅に低下したが、英国の石炭総消費量は逆に増加した。なぜなら効率向上により、蒸気動力がより多くの産業でコスト受容可能になったからだ——繊維、鉄道、鉱業、海運——それぞれの新たなシナリオが、もともと存在しなかった石炭需要を生み出した。
160年後、同じ公式がAI計算能力で繰り返されている。
企業は計算した。2022年のトークン価格では、リアルタイム推論のカスタマーサービス対話は経済的に成立しなかった。緊急でないシナリオではAIを実行する価値がなかった。パーソナライズされたコンテンツ生成は、セグメントレベルでしかできず、ユーザーレベルではできなかった。2025年には価格が1000分の1に下がり、これらの「もともと存在しなかった需要」はすべて必需需要になった。
NebiusのCherninは最も直接的な要約を与えた:「私たちが同じ単位の知能をより安くするたびに、私たちは消費を減らしているのではなく、消費を増やしている——なぜなら同じ予算でより複雑な問題を解決できるからだ。」
市場はもう一つの構造的な推進力を見落としている:粗利率の正のフィードバック。
AI推論の粗利率曲線は歴史的に対応物がない。APIを提供する企業は、初期段階では粗利率が10%しかないかもしれない——モデル訓練が高く、推論も高い。しかしソフトウェア最適化(演算子融合、量子化、推測復号)は毎月推論コストを圧縮し、価格調整は常に遅れる。その結果、粗利率が10%から90%に上昇する速度は、どんな伝統的な業界よりも短い。
粗利率が利益を駆動し、利益が調達を追加し、調達がコストを攤薄する——正のフィードバックループであり、天井はない。
「DRAMがあればトークンを売ることができ、DRAMがなければトークンを売ることができない。」この言葉は、AIチップ需要の基本方程式になりつつある。
ゴールドマン・サックスのレポートの2つの感度仮定も同じ判断を深めている。チップの経済的寿命が5年から3年に短縮されれば、交換サイクルが加速し、累積資本需要は直接一段階上昇する。チップあたりのメモリが予想より25%高い——主にチップスタック内部の支出配分を変えるが、7.6兆ドルの総枠への正味の影響は限定的だが、方向は同じだ:お金は減らない。
終局:誰が計算能力を握るか
Fable 5の輸出規制解除——6月12日に禁止、6月30日に解除、前後3週間——このパラドックスに意外な注釈を与えた。
規制の理由は「国家安全保障リスク」だった。規制解除はリスクが消えたこととは関係ない——代替品が現れた。Tulongfengなどのアジアチームは規制期間中にMythos級に近いモデルを発表し、封鎖の威嚇力は急速にゼロになった。解除は現実によるものであり、善意とは無関係だ。
このエピソードは、AIコスト削減パラドックスの本線にちょうどはまる:モデルは代替可能である。GPTからClaude、DeepSeek、オープンソースモデルまで、誰もAIの能力そのものを独占できない——誰かが障害を設ければ、誰かが迂回する。
ハードウェアはこのロジックに従わない。
GPUはダメだ。DRAMはダメだ。ウェーハ工場の建設サイクルは年単位だ。露光装置の生産能力上限は固定されている。高純度シリコンの供給弾力性はほぼゼロだ。これらはすべて物理法則であり、ビジネス戦略ではない。ソフトウェア最適化はモデルコストを1000倍に抑えることができるが、ウェーハ工場の建設サイクルを1日も短縮することはできない。
AIモデル値下げの終点——もしこのパラドックスがこのまま走り続けるなら——非計算能力化を指し示さない——計算能力の価格決定権の再集中を指し示す。 あなたが誰のモデルを使おうと、トークンは誰かのチップで実行されなければならない。モデルメーカーが価格競争で削る1円1円が、最終的にはデータセンター、ウェーハ工場、ストレージ生産ラインの帳簿上の収入になる。コスト削減が激しければ激しいほど、この移転は不可逆的になる。
リスク提示及び免責条項