2026年、モデルメーカーとクラウド事業者のトークンが一斉に値上げ。今年に入って、智谱はすでに2度の値上げ通知を出している。3月16日、智谱はOpenClawシナリオ向けの深度最適化を施した基盤モデルGLM-5-Turboをリリースし、API価格を20％引き上げた。個人および企業向けの「ロブスター」パッケージでは、Claw体験月額カード39元/月、3500万トークン含む、Claw上級月額カードは99元/月、1億トークン含む。2月には、智谱はCoding Planの価格調整を発表し、「GLM Coding Planの市場需要が継続的に強く拡大し、ユーザ規模と呼び出し量が急増しているため」とし、初回購入割引を廃止し、四半期・年次のサブスクリプション割引を維持、全体の料金は30％以上の上昇となった。

モデルメーカーだけでなく、クラウド事業者も一斉に値上げしている。Coding Planのサブスクリプションが好調なため、阿里雲はモデルAPI呼び出し量が急増し、3月4日に段階的に初回購入割引を調整、期間限定・数量限定で提供し、売り切れ次第終了とした。3月18日、阿里雲は、世界的なAI需要の爆発とサプライチェーンの値上げにより、主要ハードウェアの調達コストが著しく上昇したため、4月18日からAI計算能力やCPFS（知能計算版）などのサービス価格を調整すると発表した。平頭哥の真武810Eなどの計算能力カード関連サービスは5％～34％の値上げ、CPFS（知能計算版）は30％の値上げとなった。

百度のスマートクラウドも同様に、4月18日以降、AI計算能力関連製品のサービスを約5％～30％引き上げ、並列ファイルストレージなども約30％値上げした。テンセントクラウドは、3月13日以降、GLM 5、MiniMax 2.5、Kimi 2.5モデルのパブリックテストを終了し、正式な商用サービスに移行、モデル呼び出しに応じた従量課金制に変更した。混元シリーズのモデル価格も調整され、Tencent HY2.0 Instructモデルの入力価格は0.0008元/千トークンから0.004505元/千トークンに、出力価格は0.002元/千トークンから0.01113元/千トークンに上昇した。

しかし、2年前にはトークンの「値下げ潮流」が記憶に新しい。

2024年の「百模大戦」では、当時の大規模モデル業界は激しい価格戦にあり、クラウド事業者とモデルメーカーは次々と値下げやトークン無料配布を行った。

その年の5月、ByteDanceは0.0008元/千トークンの価格で大規模モデルの価格戦を仕掛け、その後、阿里雲も追随し、通义千問の最高値引き率は97％に達した。当時、通义千問GPT-4クラスの主力モデルQwen-Longの入力価格は0.02元/千トークンから0.0005元/千トークンに下落した。同時に、智谱の新規登録ユーザーへの付与額は500万トークンから2,500万トークンに増加した。

低コストで高性能大規模モデルを訓練したDeepSeekは、昨年3月にその推論システムV3/R1の背後にある重要情報を明らかにし、スループットと遅延を最適化した結果、DeepSeek-R1の価格に基づけばコスト利益率は545％に達した。

技術こそモデルの値下げの土台だ。ByteDance傘下のクラウドサービスプラットフォーム火山エンジンの総裁谭待は、2024年のAI価格引き下げ潮流の中で、「値下げの基本的な論理は、技術的手段でコストを削減できると確信していること、市場もより低価格の大規模モデルを求めていることだ」と述べた。

「ここ2年、計算能力の需要は企業が多かったが、今は個人の『飢餓』状態になっている」と、快思慢想研究院院長・商湯智能産業研究院創始院長の田豊は述べる。

過去2年間で、モデルは急速に進化し、エージェント応用は大きく拡大し、計算能力の需要は持続的に高まった。高コスパの推論用グラフィックカードの生産能力は限られ、メモリなどのコアハードウェアやインフラのコストも著しく上昇している。シリコンバレーのテクノロジー分析・コンサル・投資会社NavicaのCEO、Bernard Goldenは、「業界全体がより多くの計算能力を求めて狂奔している」と述べている。

需要と供給の不均衡の中で、値上げは避けられない。

「より賢いモデルはより複雑なタスクを実行し、その資源消費は巨大だ」と、智谱のCEO張鵬は価格引き上げ戦略に対して答えた。エージェントがタスクを実行する背後には長い思考と推論の連鎖があり、コードを書いて基盤インフラとやり取りしながら調整・修正を繰り返すため、単純な質問に答えるのに比べて必要なトークン量は10倍、あるいは百倍にもなる。価格調整の本質はコストの変動にある。「モデルが大きくなり、能力が向上したことで、対応するサービスコストも上昇した。だから、長期的には低価格競争に依存せず、適正な商業価値の範囲に徐々に戻したい」と述べている。

トークン呼び出し量は2年で千倍に増加

過去2年間、ソフトウェア供給者は標準化されたAPIを通じて、テキスト生成、画像生成、音声生成などの能力を既存の顧客サービスプラットフォームやマーケティング素材生成、サービスロボットなどに次々と統合してきた。企業ユーザーはAPIを通じて大規模モデルの能力を呼び出し、呼び出し量やサブスクリプション方式で課金し、利用のハードルと前期投資を低減している。何しろ、H100 GPU一枚のコストは約2万5千ドルであり、複数枚のGPUを搭載したシステムのコストはさらに高い。

このサービスモデルにより、大規模モデルは迅速に膨大なユーザーに届き、トークン呼び出し量は急増している。国家データ局局長の劉烈宏は、2025年末までに国内で高品質なデータセットが10万以上構築されたと明らかにした。2024年初の時点で、1日のトークン呼び出し量は約140兆を超え、2024年の1000億から1000倍以上に増加した。2025年末の100万兆と比較しても、わずか3か月で40％以上増加した。

田豊は澎湃科技に対し、「2024年には訓練の計算能力需要が50％超増加し、2025年には状況が逆転する」と述べている。もし2年前が百模大戦だったとすれば、今は百エビ大戦だ。

推論需要の爆発と、推論サービスとトークン消費の深い結びつきは、現在最も規模が大きく、最も成長速度の速い計算能力のシナリオだ。モデルの性能向上がトークン消費量を押し上げ、AIプログラミングや「ロブスター」（OpenClaw）などのエージェント応用の浸透もトークン需要の爆発を促している。OpenClawは「トークンのブラックホール」と揶揄される。ロブスターを使う企業や個人にとって、トークンは最大のコストのボトルネックだ。

田豊は、「エージェントが自動的にタスクを実行する際のトークン消費量は、従来の質問応答の4倍から15倍に及ぶ」と述べる。AIスタートアップの羅璇は、OpenClawを使って複雑な調査タスクを完了させるのに数百万、あるいはそれ以上のトークンを消費すると語る。より安価なトークンを見つけるために、彼の経験ではクラウド事業者やモデルメーカーの新規ユーザー登録を行い、無料トークンを獲得することだが、それでも「トークンは高すぎる」と叫ぶ。

プログラミング、チャット、オフィス作業などの計算能力消費はトークンを基準とし、より広義の計算能力消費では、画像数で価格付けされる画像生成や、時間と解像度で価格付けされる動画生成も大量の計算能力を消費する。OpenAIがSora動画アプリを閉鎖した例もそれだ。動画生成サービスの運用には膨大な計算資源と電力が必要であり、これはいずれの企業にとっても巨額の支出となるため、Soraの閉鎖は大量の計算資源の解放をもたらした。

計算能力の需要増はGPUの需要だけでなく、関連ハードウェア全体の波及も引き起こし、制約要因の一つとなる。

「冷却、照明、サーバーの電力消費は、データセンターの電力コストの約60％を占めている。今、石油や天然ガスなどのエネルギー価格も上昇しており、メモリには5年の上昇サイクルがある」と田豊は述べる。エネルギーとハードウェアコストが計算能力の値上げを促進している。

思科のグローバル副社長兼大中華区CEOの黄志明は、澎湃科技に対し、「短期的には、ハードウェア投資と工場建設は1、2か月で完了しないため、供給と需要の変動はしばらく続く」と語る。大中華区のシニア副社長兼最高技術責任者の侯勝利は、「生産能力を需要に追いつかせるにはおよそ2年かかる。メモリ工場の調整には少なくとも2年かかり、2027年末までには改善しない。工場の再建やラインの配置もそんなに早くはできない」と付け加えた。ただし、黄志明は、「利用者の拡大と応用の普及に伴い、コストは徐々に一般化・低価格化していく」と考えている。

AIクラウドサービス事業者の派欧云計算（上海）有限公司創始者の姚欣は、澎湃科技に対し、「今日、AIと計算能力の制約の瓶頸は、最先端のチップではなく、一般的なIT技術や従来の付属部品にある」と述べる。過去10年、メモリやハードディスク、スイッチなどの従来のITインフラ産業は、世界GDPの成長率とほぼ同じペースで安定的に成長してきたが、人工知能の爆発的な成長はこのバランスを破った。GPUの出荷量は大幅に増加し、その周辺部品の供給能力はこの「転換点的」需要に追いついていない。「高性能チップの生産能力は拡大したが、他の能力は追いついていない。もちろん、この波で皆が痛い目に遭ったため、メモリやハードディスクなどの従来部品も次々と増産している」と述べている。

供給と需要の交互の高まり、最終的に安定へ

「今のトークンはインターン生より高い。3、4年後には必ず安くなる」と、田豊も考える。彼は、短期的には計算能力の値上げは供給と需要のミスマッチによるものだとし、半導体のサイクルを見れば、製造業には能力サイクルがあり、増産後に新たな能力が集中して解放され、市場の供給と需要に衝撃を与え、価格は下落し、過剰供給も起こり得ると指摘する。エネルギー面では、中国は新エネルギー構造の転換を進めており、エネルギーコストのさらなる低減が期待される。中期的には、基盤モデルの能力向上により価格は上昇し続ける。三か月ごとに新バージョンがリリースされ、未解決だったニーズを解消し、新たな需要を生み出すことで計算能力の価格を押し上げる。長期的には、推論能力の進化により、最終的に計算コストの継続的な低下をもたらす。

この2年間、供給側と需要側は交互に高まり続けている。田豊は、「DeepSeekはコスト削減のイノベーションのピークであり、『ロブスター』を代表とする生産力の爆発が需要側のピークを形成している」と述べる。ただし、これは推論側のコスト削減が爆発的に進むことを意味しない。爆発の速度は推論側のコスト低減の速度よりも高いだけだ。今後3～5年で、全体の計算能力コストとトークン費用は急激に低下すると予測している。

姚欣は、「AIはすでに『シンギュラリティの瞬間』に入った」と述べ、「今後1～2年で10倍、100倍の高速成長期に入り、成長に対応できない業界は短期的に供給不足に直面するだろう。ただ、水面に広がる波紋のようにゆっくりと拡散し、最終的には安定する」と語る。

トークンの価格上昇の背後には、ビジネスの論理も変化している。NVIDIAのCEO黄仁勋は、AIの「五層ケーキ」構造を何度も言及している。「五層ケーキ」は、エネルギー、チップ、インフラ、モデル、アプリケーションの5層に分かれ、最上層のアプリケーションが最大の経済的リターンをもたらす。

「今のAIは、2000年のインターネット時代のようだ。当時も何ができるかはあまり明確でなかったが、多くの人がさまざまなウェブサイトの構築に取り組んだ」と侯勝利は述べる。応用と革新が進むにつれ、2005年、2006年には「インターネット＋」の応用シナリオが次々と登場し、さまざまなサービスが融合していった。AIの未来の方向性も期待されており、2026年がエージェントの元年となると広く予測されている。今年はエージェント応用が次々と登場するだろう。

これらのエージェント応用は、スマートフォンやパソコン、さらには工場の生産ラインにまで浸透している。「誰もがAIによる生産性向上を求めており、その唯一の制約は価格だ。値上げすれば需要は減少し、値下げすれば需要は増加する」と田豊は述べる。たとえ今でも、大手企業は値上げに対して「一律」ではない。「大手は一方でB端（企業側）のクラウド計算価格を引き上げつつ、もう一方で自社のエージェントに対して期間限定の無料試用やトークン付与戦略を展開し、C端（消費者側）市場を獲得しようとしている」と明かす。今の状況は、インターネット黎明期のようだ。大手は最終的にユーザーを争うだけでなく、開発者の奪い合いも重要なポイントだ。

かつては世界中のプログラマーだった開発者も、今や多くの非技術者がVibe Coding（雰囲気プログラミング）能力を持つようになった。彼らはコードの消費者であり、同時にコードの創造者でもある。大手は開発者を「囲い込み」、開発成果を自社のクラウド上に長く留めておく。

インターネット大手は社員にトークン付与を行い、AIの利用を促進している。報道によると、Alibabaは社員にトークン付与の内部プログラムを推進し、先進的なAIモデルやツールの使用を奨励している。社員は悟空やエージェントプログラミングプラットフォームQoderシリーズなどの有料AIツールを無料で利用でき、技術研究や一般的なオフィス作業に活用できる。会社は社員にトークン付与を行い、百炼Coding Planの会員や外部AI開発ツールの購入費用も補助している。

AIによる効率化のシナリオは、プログラミングだけにとどまらず、より広範なコンテンツ制作や専門的なオフィス作業にもトークン需要が存在する。MiniMaxは、従来のCoding Planをアップグレードし、MiniMaxの全モーダルモデルをサポートするToken Planに進化させ、トークンの機会を掴もうとしている。

「正直に言えば、モデルの需要はあまり多く見つかっていないため、月額課金モデルを採用している。トークンが注目されるのは、月間のユーザー増加数や一人当たりの消費トークン数などの指標が収益の伸びを直接示すからだ」と田豊は述べる。これにより、ユーザーの粘着性が非常に高まり、製品が十分に使いやすければ、価格が少し高くてもユーザーはより良い体験のために支払う意欲を持つ。さらに、同じ500万トークンでも、22元で売ることも、400元で売ることもでき、そのプレミアムは基盤モデルやエージェントの能力に直結している。田豊は、「本質的には、トークンの背後には未だ未開発の金鉱が眠っている」と締めくくった。

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。