論文は、業界標準のSWE-bench Verified（500件の実際のGitHub Issue）で、8つの最先端大規模モデルのエージェント性能をテストした。ドルに換算すると、トークン効率の良いモデルは、1つのタスクに数十ドルの差を生む。企業レベルの運用では、1日に数百のタスクを処理することもあり、その差はまさに金貨の山だ。

さらに面白い発見は、トークン効率はモデルの「固有の性格」であり、タスクの性質によるものではない。

研究者は、すべてのモデルが成功したタスク（230個）と、すべてのモデルが失敗したタスク（100個）を比較したところ、モデルの相対的な順位はほとんど変わらないことを見出した。

これは、あるモデルは生まれつき「おしゃべり」な性格であり、タスクの難易度とは関係ないことを示している。

もう一つ深刻な発見は、モデルには「損切り意識」が欠如していることだ。

すべてのモデルが解決できない困難なタスクに直面したとき、理想的なエージェントは早めに諦めるべきだが、実際には、失敗したタスクに対してより多くのトークンを消費している——彼らは「負け」を認めず、探索や再試行、文脈の再読を続ける。まるで燃料計の警告灯のない車のように、故障まで走り続ける。

発見四：人間が難しいと感じることは、エージェントにとっては必ずしも高コストではない——難易度の感知は完全にズレている

あなたはこう思うかもしれない：「少なくとも、タスクの難易度に応じてコストを予測できるはずだ」と。

論文は、専門家に500のタスクの難易度を評価させ、その値とエージェントの実際のトークン消費と比較した。

結果は：両者の相関は弱い。

ざっくり言えば：人間が死ぬほど難しいと感じるタスクでも、エージェントはあまりお金をかけずに済むこともあれば、人間が簡単だと思うタスクに多額のコストをかけることもある。

これは、人間とAIが「見る」難しさの基準が根本的に異なるためだ。

人間が見るのは：論理の複雑さ、アルゴリズムの難しさ、業務理解のハードル

エージェントが見るのは：プロジェクトの規模、読む必要のあるファイル数、探索経路の長さ、同じファイルの繰り返し修正の有無

ある人間の専門家が「一行修正すれば良い」と思ったバグでも、エージェントはまずコード全体の構造を理解しなければその行を特定できない——「読む」だけで大量のトークンを消費する。一方、「ロジックが複雑」と感じるアルゴリズム問題でも、エージェントは標準解法を知っていればあっという間に解決できる。

こうした違いにより、開発者は直感だけでエージェントの運用コストを予測するのはほぼ不可能だ。

発見五：モデル自身さえ、自分がどれだけコストを使うか正確に予測できない

人間ですら予測できないのに、AIに自己予測させるのはどうか？

研究者は巧妙な実験を設計した。エージェントに実際にバグ修正を始める前に、「コードベースを検査」させ、必要なトークン数を予測させる——ただし、実際には修正は行わない。

結果はどうだったか？

すべてのモデルが大きく外れた。

最も良かったのはClaude Sonnet-4.5の予測の相関性——0.39（1.0が完全一致）。他のモデルは0.05から0.34の範囲で、Gemini-3-Proは最低の0.04で、ほぼ的外れの予測だった。

さらにひどいのは、すべてのモデルが自己のトークン消費を過小評価していることだ。図11の散布図を見ると、ほとんどの点が「完璧な予測線」の下側に位置し、モデルは「そんなに使わないだろう」と思っているのに、実際にはもっと多く使っている。そして、この過小評価は、例示を提供しない場合ほど顕著になる。

皮肉なことに、予測自体もコストがかかる。

Claude Sonnet-3.7とSonnet-4の予測コストは、タスクの実コストの2倍以上に達することもある。つまり、先に「見積もり」をさせる方が、実作業よりも高くつく場合もある。

論文の結論はストレートだ：

現段階では、最先端モデルは自分のトークン消費量を正確に予測できない。エージェントを「動かす」たびに、まるでガチャを回すようなもの——請求書が届いて初めて、いくら使ったかがわかる。

この「曖昧な会計」の裏には、より大きな業界の問題が潜んでいる。

これを読んで、あなたはこう疑問に思うかもしれない：「これらの発見は、企業にとって何を意味するのか？」

「月額定額」の価格設定モデルは、エージェントによって引き裂かれつつある

論文は、ChatGPT Plusのようなサブスクリプションモデルが成立しているのは、普通の対話のトークン消費が比較的コントロール可能で予測可能だからだと指摘する。しかし、エージェントのタスクはこの仮定を完全に打ち破る——あるタスクはエージェントのループに陥り、巨大なトークンを消費する。

これにより、純粋なサブスクリプション料金はエージェントのシナリオには持続不可能となり、従量制（Pay-as-you-go）が長期的には最も現実的な選択肢となる。ただし、従量制の問題は——使用量自体が予測できないことだ。

トークン効率は、モデル選択の「第三の指標」となるべき

従来、企業はモデル選択の基準として、「能力（できるか）」と「速度（速いか）」の二つを重視してきた。この論文は、もう一つの同等に重要な次元——「能効（どれだけコストをかけて成し遂げるか）」を提案している。

能力は少し劣るが、効率が3倍高いモデルは、スケールのシナリオでは「最強だが高コスト」のモデルよりも経済的価値が高い場合がある。

エージェントには「油計」と「ブレーキ」が必要

論文は、将来の重要な方向性として、「予算意識を持つツール使用ポリシー」（Budget-aware tool-use policies）を挙げている。簡単に言えば、エージェントに「油計」を装備させることだ——トークン消費が予算に近づいたら、無駄な探索を強制的に停止させる。そうすれば、無駄に燃料を使い続けることを防げる。

現状、多くの主流エージェントフレームワークにはこの仕組みが欠如している。

エージェントの「燃費問題」は、バグではなく、業界の避けられない痛みだ。

この論文は、単なるモデルの欠陥ではなく、エージェントのパラダイムそのものの構造的課題を明らかにしている——AIが「一問一答」から「自主的な計画、多段階の実行、反復的な調整」へと進化するにつれ、トークン消費の予測不能性は避けられない。

良いニュースは、これが初めて体系的にこの「曖昧な会計」を明らかにしたことだ。このデータをもとに、開発者はモデルの選択や予算設定、止損メカニズムの設計をより賢明に行えるようになる。モデルメーカーも、新たな最適化の方向性を見出せる——より強くなるだけでなく、より省エネにすることだ。

結局のところ、AIエージェントが産業のあらゆる場面に本格的に入り込む前に、一円一円を明確に把握して使うことが、コードの見た目の美しさよりも重要になるだろう。（この記事は最初に钛媒体APPに掲載されたもので、著者は硅谷Tech news、編集は赵虹宇）

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

報酬
いいね
コメント
リポスト
共有

コメントを追加

コメントなし

人気の話題
もっと見る
#
WCTCTradingKingPK
532.6K 人気度
#
USSeeksStrategicBitcoinReserve
58.75M 人気度
#
IsraelStrikesIranBTCPlunges
39.51K 人気度
#
BitcoinETFOptionLimitQuadruples
1.02M 人気度
#
#FedHoldsRateButDividesDeepen
42.34K 人気度

ピン

サイトマップ

エージェントには「燃料計」と「ブレーキ」が必要：論文で、エージェントの「曖昧な帳簿」を暴露する

人気の話題

WCTCTradingKingPK

USSeeksStrategicBitcoinReserve

IsraelStrikesIranBTCPlunges

BitcoinETFOptionLimitQuadruples

#FedHoldsRateButDividesDeepen

ピン