トークンは本物の資産ではなく、インテリジェントエージェントこそが真の資産である

著者:張烽

一、テクノロジー企業の従業員による膨大なトークン消費量

2026年5月、ある報道が業界の注目を集めた:あるテクノロジー企業が従業員のClaude使用許可に上限を設けていなかったため、月間のトークン消費量が約5億ドルに相当した。この極端なケースが注目されるのは、その規模自体ではなく、測定ロジックの断絶を露呈した点にある:同社はトークン消費を従業員のAI利用強度の指標とみなしていたが、事業成果と連動した管理メカニズムを一切構築していなかった。

この「請求爆発」の行政管理上の過失と比べて、MetaやAmazonなどのシリコンバレー大手企業の内部実践は、より深刻な問題を明らかにしている。Metaは「Claudeonomics」というランキングを導入し、8万5千人以上の従業員のトークン消費を追跡、"Token Legend"や"Model Connoisseur"などの称号を設けてランキングインセンティブを付与した。データによると、30日間で全従業員の累計消費は約60兆トークンに達し、Anthropicの公表価格を基に推定すると請求額は約9億ドルにのぼる。最も多く消費した従業員は月間約2810億トークンを消費し、約140万ドル以上に相当する。Amazon内部の「Kirorank」ランキングは、当初AIのビジネスシナリオへの応用を促進する目的だったが、結果的に従業員が無意味な操作を意図的に行いスコアを稼ぐ現象を誘発し、最終的に上級副社長から「AIを使うためにAIを使うな」と一喝された。トークン消費量という技術的な計測単位は、企業内部で管理評価尺度に歪められ、大規模なインセンティブのミスマッチを生み出している。

このことから導き出される核心的な命題は:トークン消費量はAIエージェント、企業、従業員の効率性を評価する基準になり得るのか?もし否定的なら、何の指標が真に評価の意味を持つのか?

私たちは、トークン消費量を評価指標とすることは危険だと考える。それは、「コスト」と「価値」を混同し、「過程」と「成果」を混同してしまうからだ。AIエージェントが主流となる現代において、真の資産はトークンではなく、エージェントそのものである。

二、トークンの資産化はどのようにして生まれたのか?

2.1 トークンの価格付けの商業化の成熟

トークンは大規模モデルがテキストを処理する最小単位として、AI産業の基本的な価格計測単位として確立された。2026年3月、全国科学技術用語審定委員会は正式に「トークン」の中国語名称を「詞元」と定め、社会全体に試用を開始した。国家データ局はこれを「決済単位」として定義し、2026年第1四半期の国内の1日あたりのトークン呼び出し量は140兆を突破し、2024年初と比較して千倍以上の増加を示した。この標準化の動きは、トークンの価格付け体系に対する産業界の合意形成が進んでいることを反映している。

価格設定の観点から見ると、現在のトークン市場は極端に二極化している。国際的な主流モデルでは、OpenAIのGPT-4oの入力価格は100万トークンあたり2.5ドル、出力は10ドル、Claude Sonnetは入力3ドル、出力15ドルとなっている。2026年4月、OpenAIはGPT-5.5シリーズと上位版のGPT-5.5 Proを正式にリリースし、APIの価格はGPT-5.5 Proの入力30ドル、出力180ドル(百万トークンあたり)に設定された。一方、国内の大規模モデルは価格競争を激化させており、2026年5月27日、XiaomiはMiMo-V2.5シリーズのAPIを永久値下げし、最大99%の割引を実施した。MiMo-V2.5-Proのキャッシュヒット時の入力価格は0.025元/百万トークンにまで下がった。DeepSeekはV4シリーズをリリースし、フラッグシップのV4-Proは割引期間中にキャッシュヒット時の入力価格も0.025元/百万トークンに抑えられた。トークン価格の「公正価値」は統一されておらず、モデルやシナリオによって同じトークン消費でも価格差は百倍、千倍に及ぶ。

2.2 Tokenmaxxingの台頭とその問題点

トークンを価格付けの単位とする技術的合理性と規制の裏付けはあるものの、企業がこれを管理尺度に歪める実践との間には危険な断絶が存在する。「Tokenmaxxing」は2025年頃から企業内部で流行し始め、その根底にある管理ロジックは、「企業がAIツールを購入済みであれば、従業員は投資回収率を示すために最大限に利用すべきだ」というものだ。

しかし、データはこのロジックの脆弱性を示している。ある研究によると、企業がAIトークンを1ドル購入する背後には、誤り修正やコードの書き直し、レビュー遅延などの潜在的な損失が0.5〜0.8ドル存在すると推定されている。分析では、Claude Codeの上位10%の重度ユーザーは、一般の開発者の約10倍のトークンを消費するが、その成果は後者の2倍程度にとどまると指摘されている。AmazonやMetaはすでに自社のトークン内部ランキングを停止し、Uberは4か月で年間のAIトークン予算を使い果たした。業界は「AIを多く使えば良い」というナarrativeから、「支出の価値はあるのか」という慎重な段階へと急速に移行している。

2.3 エージェント経済の出現

しかし、トークン消費を焦点とした議論は、ほぼ同時期に起きている構造的変化をほとんど無視している:エージェントは大規模モデルの「付加能力」から、独立した技術・経済主体へと成長している。2026年5月、国家インターネット情報弁公室、国家発展改革委員会、工業情報化部は、「エージェントの規範的応用とイノベーション推進に関する実施意見」を共同発表し、エージェントは人工知能製品・サービスの重要な形態であると明示した。Anthropicは2026年5月の開発者大会で、Claude Codeを「端末内のAIプログラミングアシスタント」から「エンジニアリングチームの非同期自動化基盤」へと推進し、正式に「基礎料金+実際の計算資源消費に応じた課金」モデルに移行した。Claude Managed Agents戦略は、より深い転換を示している:モデルメーカーは直接エージェントの運用基盤を販売し、ビジネスモデルはトークン販売からエージェントの運用能力販売へとシフトしている。

この背景により、トークン消費量の測定の限界が一層顕著になり、代替的な評価体系の模索も加速している。

三、トークンは本当に適切な評価指標なのか?

3.1 トークンを評価指標とする四つの構造的欠陥

**第一、トークンはコストと価値を混同している。**李彦宏はCreate2026百度AI開発者大会で、「トークンはあくまでコストを表すものであり、利益を示すものではない。投入を測るものであって、成果を示すものではない」と明言した。清華大学の馬少平教授は、技術の底層から、「トークン自体は知能を持たず、情報を運ぶ媒体に過ぎない。AIの知能は、トークン列の関係性のモデル化にある」と解説している。トークン消費量を効率性の指標とすることは、工場の電力消費を生産高の評価基準とするのに等しい—電気代が高いからといって必ずしも生産性が高いわけではなく、むしろ設備の非効率や管理の乱れを示す可能性もある。

**第二、トークンはモデル間やタスク間の比較基準に乏しい。**異なる大規模モデルではトークン計算方式が異なり、Anthropicのバージョンごとに分かち書き器の調整が異なるため、同じテキストでも消費トークン数に大きな差が生じる。異なるタスクで同じビジネス目標を達成するために必要なトークン量も、数十倍の差がある。根本的には、トークンの価格付け自体が大規模モデルメーカー間で百倍以上の価格差を生んでいるため、効率性の尺度として用いることは論理的に破綻している。

**第三、トークン評価はインセンティブの歪みを引き起こす。**トークン消費量がパフォーマンス評価に組み込まれると、従業員は「コスト削減」ではなく、「最大化」すべき偽の目標を追求することになる。エンジニアは最少トークンで最適なタスクを完了することを追求せず、タスクチェーンを膨らませたり冗長な推論ステップを増やしたりしてトークン数を増やす行動をとる—この行動経済学的な「指標の歪み」は、MetaやAmazonの実践例に明確に見られる。

**第四、トークンは完了の質を捉えにくい。**複雑な工程問題を一発で解決できるエージェントは、何度も試行錯誤し、何度も後退しながら答えに近づく低品質なエージェントよりも、少ないトークンで済むことが多い。トークン消費量が多いほど、一般的には効率が悪い—これは評価の方向性と逆行している。

3.2 エージェントをコア資産として再定義

上述の分析は、根本的な結論を示している:**トークンは消費される資源であり、エージェントは価値を創造する実体だ。**両者の関係は、電力消費と電動機の関係に似ている—総消費電力量は計測できても、実際に価値を生み出すのは電動機がどれだけ仕事をしたか、何を生産したかだ。

Anthropicの戦略もこれを裏付けている。2026年5月にリリースされた新版Claudeは、「エージェント的コーディング」「コンピュータ利用」「知識作業」「財務分析」など、実際の業務シナリオに深く関与できることを重視している。特に、Anthropicはマネージドエージェントのプラットフォーム化戦略を示し、モデル呼び出し権の販売から、エージェントの運用層のサービス提供へと価値の流れをシフトさせている。この変化の本質は、基盤となる計算資源の消費から、アプリケーション層の実体へと価値の担い手が移行している点にある。

Claude Codeの責任者は、現行の純粋なサブスクリプション価格では収益が得られないと述べている。これは、トークン価格だけではエージェントの実際のコスト構造をカバーできないことを示している。エージェントの価値は、タスクの完了度、自動化の深さ、ワークフローの埋め込み度にあり、これらはトークン計測だけでは十分に捉えられない。

3.3 新たな評価基準の出現

トークンの測定が不十分であることが証明されると、業界は代替案の模索を始めている。タスク完了基準では、SWE-bench Verifiedがコードエージェントの厳格な評価基準として認知されている。実際のGitHubコードリポジトリ内でバグを自主的に特定・修正できる能力を測るもので、Claude Sonnet 4はこの基準で約80.20%、Claude Opus 4.6は78〜80%のスコアを獲得している。これらの基準の核心は、「消費したトークンの量」ではなく、「完了したタスクの単位数」を評価している点にある。

ビジネス価値の評価では、百度はDAA(日次アクティブエージェント数)を提案し、「毎日どれだけのエージェントが実働し、結果を出しているか」を測定している。DAAは、「どれだけAIを使ったか」から、「どれだけのタスクを完了したか」へと評価の焦点をシフトさせている。

Amazonもまた、「正規化された展開」指標を模索し、エンジニアがAIを通じて継続的に価値あるコードを生成できるかを測定している。FinOps Foundationの2026年レポートによると、AIコスト管理に取り組む企業は98%に達し、2年前の31%から大きく増加している。コストの可視性は、AI支出の評価において最重要課題となっている。この動きは、「支出の有無」から「支出と成果の関係」へと、評価の構造的な見直しを促している。

これらの模索の共通点は、「AIのタスク完了の質と量を尺度とし、資源消費の総量を尺度としない」ことにある—これこそ、「真の資産はトークンではなく、エージェントそのものである」という命題の実証的裏付けだ。

四、トークンの測定と価格競争の比較

4.1 トークン測定派 vs エージェント測定派

トークン測定派の基本的立場は、2026年3月のGTC大会で黄仁勲氏が述べた次の言葉に遡る:「もし年収50万ドルのエンジニアが1年で25万ドルのトークンを使い切れなかったら、私は深刻に懸念する」。この考えは、トークン予算をエンジニアの生産性の投入指標とみなすもので、「トークン消費量と価値創造は正の相関にある」と暗黙の前提を持つ。

**しかし、この仮説は多くの課題に直面している。UberのCOO、Andrew Macdonaldは、「従業員の個人の生産性向上と、企業全体のビジネスへの影響を結びつけるのは難しい」と指摘している。実務では、従業員はAIを「嫌いな仕事」に使うことが多く、「会社にとって最も価値のある仕事」にはあまり使わない。財務面では、調査によると、AI投資の明確なROIを把握できているCFOはわずか14%にすぎない。Uberは年間のトークン予算を使い果たした後、パフォーマンスの向上を示せなかった。これらの証拠は、「トークン予算とビジネス成長の因果関係は証明できず、トークンは評価尺度として適さない」**ことを示している。

4.2 トークン価格競争の二面性

トークン価格を巡る激しい競争は、上述の評価論争に新たな次元をもたらしている。2026年4月、OpenAIはGPT-5.5 Pro APIの価格を、入力30ドル、出力180ドル(百万トークンあたり)に設定し、従来のGPT-5.4 Proより数倍高くした。同時に、DeepSeekはV4-Proの割引価格を0.025元/百万トークンに引き下げ、小米もMiMo-V2.5-Proのキャッシュヒット価格を同じく0.025元に設定した。これにより、同じインフラ基盤上での呼び出しコストは、0.03元未満から約30ドル(210元)にまで跳ね上がる。

この動きは、トークンのコスト差が数百倍、千倍に拡大し得ることを示しており、トークン消費量を横断的に比較する尺度としての信頼性を著しく損なう。もし同一のトークンが異なる供給者間で数百倍のコスト差を持つなら、トークン消費量をAIの効率性や効果の比較尺度とすることは、根本的に破綻している。投資家やアナリストにとっても、トークン消費量に基づくリスク評価や業績予測は、ますます偏りを生むだろう。トークンの価格体系は急速に分化し、「投入規模」としての測定は、もはや参照点を失いつつある。

五、事実は雄弁に語る

シナリオ一:Metaの「Claudeonomics」の失敗

2026年4月、Metaの従業員が「Claudeonomics」という内部ダッシュボードを開発し、8万5千人以上の従業員のトークン使用量を集計した。データによると、30日間で全従業員の合計消費は約60兆トークンに達し、Anthropicの公表価格を基に推定すると請求額は約9億ドルにのぼる。最も多く消費した個人は月間約2810億トークンを使い、約140万ドルに相当した。

この事例は、トークン測定に基づくインセンティブの三段階を示している:第一段階は、トークン使用量を動機付けにして従業員にAIツールの利用を促すこと。第二段階は、従業員がランキング維持のために意図的にトークン消費タスクを作り出すこと。第三段階は、企業の計算資源が無駄に消費され、成果の質が期待を大きく下回ることだ。最終的にMetaはこのランキングを停止した。

シナリオ二:Anthropicの計算能力の制約と拡張

トークン測定のもう一つの側面は、モデルメーカー自身のコストと計算能力の圧迫だ。2026年5月、Claudeの容量制限を緩和するため、AnthropicはSpaceXの子会社であるColossus 1データセンターの全計算能力を引き継ぎ、300メガワット超の新容量と22万枚以上のNVIDIA GPUを獲得した。契約によると、新たな計算能力はClaude ProやClaude Maxのサービス提供能力向上に直接充てられる。これは、トークン価格体系が計算能力供給に大きく依存していることを示し、長期的な安定性には不確実性が残る。

シナリオ三:企業のトークン請求書の圧力

報道によると、Microsoftは一時的に従業員のClaude Code利用を制限した。Uberは4か月で年間のAIトークン予算を使い果たした。ShopifyやSpotify、ServiceNow、Rokuなどの企業も、四半期決算会議でAIが運用コストの主要な要因になっていると言及している。トークン請求額の急激な膨張が財務に影響を与え始めると、企業は初めてトークン消費とビジネス成果の関係性を体系的に見直し始める。

シナリオ四:資産としてのエージェントの正の事例

トークン測定派の課題に直面しつつも、エージェントそのものの評価体系を構築して成功している企業も存在する。Anthropicは企業向けサービスに注力し、顧客数はChatGPTに比べて少ないものの、収益は着実に伸びている。2025年末の年次収益は約90億ドルに達し、2026年3月には300億ドルを突破し、OpenAIの250億ドルを超えた。分析によると、その理由の一つは、Anthropicのエージェントが企業の契約処理、データ分析、サプライチェーンの調整など、実務のタスクを実行している点にある。ユーザーはエージェントの存在を意識しないが、日々価値を生み出している。

The Informationなどの報道によると、Claude Codeの年次収益は2025年から2026年にかけて高速に成長している。企業はエージェントのタスク完了の質に対して支払うため、単なる計算資源の消費量に基づく支払いではない—これこそ、「エージェントは真の資産である」という命題の強力な証拠だ。

六、トークン資産中心からエージェント資産中心への移行

総じて、次のような明確な潮流が見て取れる。

**第一、トークン消費量は効率性評価の指標として構造的欠陥を抱えている。**投入と成果、コストと価値を混同し、モデル間やシナリオ間の比較基準に乏しく、経営と評価の目標を分離させてしまい、激しいインセンティブの歪みを生む。MetaやAmazonの内部実践はこれを明確に証明している。

**第二、エージェントはAI経済において最も実質的な価値担い手となりつつある。**エージェントの定義は、「タスク単位の完了」にあり、「計算資源の消費」ではない。高効率のエージェントは、少量のトークンで高度な複雑タスクを完了できる一方、非効率なエージェントは大量のトークンを消費しても実質的な成果を出せない。したがって、トークン消費量はエージェントの能力の境界や投資のリターンを予測できない。

**第三、業界はトークン中心からエージェント中心の評価体系へとシフトしている。**SWE-benchのようなタスク完了基準は、エージェントの能力を横断的に比較する枠組みを提供し、DAAのようなビジネス価値指標は、エージェントの運用層からAIの経済的貢献を測定し、企業は内部で成果の質を重視した評価指標を模索している。

要するに、**真の資産はトークンではなく、エージェントそのものである。**トークンはエージェントの運用燃料だが、企業の競争力はエンジンの効率にかかっている。トークン中心からエージェント中心への測定パラダイムの変換は、今後3〜5年のAI産業の評価体系再構築の主軸となるだろう。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし