このモードは、本質的に「深い論理の裏付けが必要な複雑なタスク」のために設計されている。しかし多くの人は、単純な質問をする時にもこのモードを選んでしまう。深い推論が不要なタスクでは、明確に AI に「思考手順の説明はいらない。答えを直接出して」と伝えるか、拡張思考を手動でオフにすれば、かなりの金額が節約できる。
例を挙げよう。100 ページの業界レポートを分析したいなら、まず Gemini Flash を使ってレポート内の重要なデータと結論を抽出し、10 ページの要約に整理する。その後、その要約を Claude Opus に渡して深い分析と判断をしてもらう。こうした二段階ワークフローは、品質を保ったままコストを大幅に圧縮できる。
究極の節約は、アルゴリズムの最適化ではなく、意思決定の断捨離だ。私たちは AI に万能の解答を求めるのに慣れているが、多くの場面で高価な大モデルを呼ぶことは、高射砲で蚊を撃つのと同じだ。
例えば AI にメールを自動処理させると、AI はすべてのメールを独立したタスクとして理解し、分類し、返信しようとする。Token 消費は膨大になる。だがまず 30 秒で受信箱をざっと確認し、明らかに AI に処理させる必要のないメールを人手でふるい落としてから、残りを AI に任せれば、コストは最初の一部に一気に下がる。ここで人の判断力は障害ではなく、最高のフィルターになる。
電報時代の人々は、1 文字増えるほどいくら余計にかかるかを知っていたから、彼らは掂量していた。資源に対する直感的な感知だ。AI 時代でも同じだ。AI にもう一言多く言わせるのにどれだけの費用がかかるのかを本当に理解できたとき、あなたは自然に考えるはずだ。それは AI にやらせるべき価値があるのか。このタスクにはトップレベルのモデルが必要なのか、それとも安いモデルで足りるのか。このコンテキストはまだ使えるのか。
AI時代の節約哲学:いかにしてすべてのTokenを無駄なく使うか
作者:Sleepy.md
電報が従量課金だったあの時代、筆と墨がそのままお金だった。人々は万語千言を極限まで凝縮するのに慣れていて、「すぐ帰って」には長い手紙一通以上の価値があり、「無事に」というのが最も重い念押しだった。
その後、電話が家に入り込んだが、長距離通話は分秒ごとに課金されるようになった。両親の長距離電話はいつも簡潔で、用件が済むとすぐに慌ただしく切られる。話の糸口が少しでも広がると、電話代が惜しいという考えが顔を出した瞬間の挨拶を途中で遮ってしまう。
さらにその後、ブロードバンドが家に入ってネットは時間課金になり、人々は画面上のタイマーを見つめ、ウェブページを開いたらすぐ閉じ、動画はダウンロードするしかなくなった。当時、ストリーミングは贅沢な動詞だった。どのダウンロード進捗バーの終点にも、人々の「世界につながりたい」という渇望と、「残高不足」を恐れる気持ちが隠れている。
課金の単位が変わっても変わっても、省銭の本能は太古から不変だ。
いまや、Token は AI 時代の通貨になった。しかし大多数の人は、見えないアルゴリズムの中で損得を計算する方法をまだ学べていないので、この時代にどうやって細かくやりくりするかを、まだ身につけられていない。
2022 年に ChatGPT が登場したばかりの頃は、ほとんど誰も Token が何なのか気にしていなかった。AI の大鍋ごはん時代で、毎月 20 ドルを払えば、好きなだけ話せた。
だが最近 AI Agent が流行ってからは、Token の費用が、AI Agent を使うすべての人が必ず気にしなければならないものになった。
一問一答の単純な会話と違って、タスクフローの背後には数百もの API 呼び出しがあり、Agent の自律的な思考には代償がある。自己修正するたび、ツールを呼び出すたびに、請求書の数字が跳ねる。そして気づくと、チャージしたはずのお金が突然足りなくなっていて、しかも Agent がいったい何をしたのかも分からない。
現実の生活では、皆がどうやって節約するか知っている。青果市場で買い物をするなら、泥のついた傷んだ葉をきれいにしてから量りにかけるのを知っている。空港までタクシーで行くなら、早朝ラッシュの高架を避けるのを運転手は知っている。
デジタル世界での節約ロジックも実は同じだが、課金単位が「斤」や「キロ」から Token に置き換わっただけだ。
過去には、節約は不足が原因だった。そして AI 時代には、節約は「正確さ」のためだ。
私たちはこの記事を通じて、AI 時代における節約の方法論を整理し、あなたが一銭たりとも刃先に当てて使えるように手助けしたい。
秤に載せる前に、腐った野菜の葉を選り分ける
AI 時代では、情報の価値は幅ではなく純度で決まる。
AI の課金ロジックは、AI が読んだ文字数に基づいて課金される。入れた内容が真に価値ある洞察であろうと、意味のない形式のゴミ文であろうと、AI が読んだ時点であなたは支払わなければならない。
そのため、Token を節約する最初の考え方は、「信号と雑音の比」を無意識に刻み込むことだ。
AI に渡すあなたのあらゆる 1 文字、あらゆる 1 枚の画像、あらゆる 1 行のコードに料金がかかる。だから、何かを AI に渡す前に必ず自分に聞いてみてほしい。ここに AI が本当に必要としている要素はどれくらいある?泥のついた腐った葉はどれくらい混ざっている?
例えば「こんにちは、手伝ってください…」のような長すぎる冒頭の挨拶、繰り返される背景説明、きれいに消し切れていないコードのコメントなどは、すべて泥のついた腐った葉だ。
それ以外で最もよくある浪費は、PDF やウェブページのスクリーンショットをそのまま AI に放り込むことだ。確かにあなた自身は楽になるが、AI 時代の「楽をする」は、多くの場合「高くつく」ことを意味する。
フォーマットが完全な PDF には、本文のほかにヘッダー、フッター、図表の注釈、隠しウォーターマーク、そして大量のレイアウト用フォーマットコードが含まれている。これらは AI があなたの問題を理解するのにまったく役に立たないのに、全部が課金対象になる。
次は、PDF を AI に渡す前に、まずきれいな Markdown テキストへ変換してから読ませてみてほしい。10MB の PDF を 10KB のクリーンテキストに変えれば、あなたは 99% の金額を節約できるだけでなく、AI の「脳」の処理速度も以前よりはるかに速くなる。
画像も別の大きな金食い虫だ。
ビジュアルモデルの論理では、AI はあなたの写真が美しいかどうかを気にしない。気にするのは、あなたがどれだけのピクセル面積を占有したかだけだ。
Claude の公式計算ロジックを例にすると、画像の Token 消費量 = 幅のピクセル × 高さのピクセル ÷ 750。
1000×1000 ピクセルの画像 1 枚だと、消費は約 1334 Token。Claude Sonnet 4.6 の価格に換算すると、1 枚あたり約 0.004 ドル。
しかし同じ画像を 200×200 ピクセルに圧縮すれば、消費は 54 Token で済み、コストは 0.00016 ドルまで下がる。差はなんと 25 倍だ。
多くの人が、スマホで撮った高解像度の写真や 4K スクリーンショットをそのまま AI に投げてしまうが、これらの画像が消費する Token は、AI が中篇小説の大半を読み終えるのに足りる可能性すらある。タスクが画像内の文字の認識だけ、あるいは簡単な視覚判断だけである場合、例えば AI に請求書の金額を読み取らせる、取扱説明書の文章を読む、画像内に信号(赤・緑)があるかを判断させるといったケースでは、4K の解像度は純粋に無駄であり、画像を最小限の使える解像度に圧縮するだけで十分だ。
だが、入力側で Token を最も簡単に浪費してしまう理由は、実はファイル形式ではなく、非効率な話し方にある。
多くの人は AI を真人の隣人のように扱い、社交的な細かい独り言でコミュニケーションする癖がある。まず「Web ページを作って」と 1 文投げ、AI が途中までの出来を吐き出したら、細部を補足し、何度も行き来して引っ張る。このような歯磨きのチューブを絞り出す対話は、AI に何度も同じ内容を生成させることになり、毎回の修正のたびに Token 消費が積み重なる。
Tencent Cloud のエンジニアが実践で見つけたところでは、同じ要求であっても、歯磨き型の多段階対話だと、最終的に消費される Token は、一度で要件を完全に伝え切る場合の 3〜5 倍になることが多い。
本当の節約の道は、この低効率な社交的な探りをやめることだ。要求、境界条件、参考例を一度で明確に伝える。やたら「やらないで」ということの説明に労力をかける必要がないのは否定文が肯定文よりも理解コストを多く消費しがちなためだ。「どうやるか」を直接伝え、そして明確な正しい手本を示せばいい。
さらに、目指すゴールが分かっているなら、AI に先に全部説明してしまい、AI に探偵役をさせないことだ。
あなたが AI に「ユーザー関連のコードを探して」と命令するなら、AI はバックグラウンドで大規模なスキャン、分析、推測をしなければならない。一方で「src/services/user.ts というファイルを見て」と直接伝えるなら、Token の消費は天と地ほど違う。デジタル世界では、情報の対等性こそが最大の節約だ。
AI の「礼儀」にお金を払わない
大規模モデルの課金には、多くの人が気づいていない暗黙のルールがある。出力 Token は、入力 Token より通常 3〜5 倍高いということだ。
つまり AI が吐き出す言葉のほうが、あなたが AI に言った内容よりずっと高くつく。Claude Sonnet 4.6 の価格を例にすると、入力は 4000 Token あたり 3 ドルで、出力は一気に 15 ドルまで跳ね上がり、差はちょうど 5 倍になる。
「承知しました。ご要望は完全に理解しました。ではお答えを始めます…」のような丁寧な導入文や、「以上の内容がお役に立てれば幸いです」のようなお決まりの締めの挨拶は、対人コミュニケーションでは礼儀として通る。だが API の請求書では、これらの情報増分のない雑談の挨拶も、すべてあなた自身のお金が必要だ。
出力側の浪費を最も効率よく解決する方法は、AI にルールを決めることだ。システム指示で明確にこう伝えよう。挨拶するな、説明するな、要望を繰り返すな。答えをそのまま出せ。
これらのルールは一度設定するだけで、以後の毎回の会話に効き続ける。本当に「一度投下して、永久に利益を得る」資産運用の手段だ。ただしルール作りの段階で、多くの人は別の誤りに陥る。冗長な自然言語で指示を積み上げてしまうのだ。
エンジニアの実測データでは、指示の効果は文字数ではなく密度にあることが示されている。500 文字のシステムプロンプトを 180 文字に圧縮し、意味のない丁寧表現を削り、繰り返しの指示を統合し、段落を簡潔な箇条書きのリストに再構成すると、AI の出力品質はほぼ揺れないのに、1 回あたりの Token 消費は 64% まで急落する。
さらに、より能動的な制御手段として出力長の制限がある。多くの人は出力上限を設定したことがない。AI に自由に喋らせるままにしてしまう。表現の主導権を放任すると、コストが極端に制御不能になることが多い。あなたに必要なのは一言で足りる短い結論かもしれないのに、AI は「知的な誠意」を示すために、容赦なく 800 字の小論文を生成してしまう。
純粋にデータだけが欲しいのなら、AI に冗長な自然言語の説明をさせるのではなく、構造化された形式を強制すべきだ。同じ情報量を載せる場合、JSON 形式の Token 消費は、散文の段落よりはるかに低い。構造化データは、冗長な接続詞、語気語、説明的な修飾をすべて取り除き、濃度の高いロジックの核だけを残すからだ。
AI 時代では、あなたが課金すべきなのは AI の無意味な自己説明ではなく、結果の価値だと、冷静に理解しておくべきだ。
それに加えて、AI の「過度な思考」もまた、あなたの口座残高を狂ったように食い潰している。
一部の高度なモデルには「拡張思考」モードがあり、回答の前に大量の内部推論を行う。この推論プロセスも課金対象で、しかも出力の価格で計算されるため非常に高い。
このモードは、本質的に「深い論理の裏付けが必要な複雑なタスク」のために設計されている。しかし多くの人は、単純な質問をする時にもこのモードを選んでしまう。深い推論が不要なタスクでは、明確に AI に「思考手順の説明はいらない。答えを直接出して」と伝えるか、拡張思考を手動でオフにすれば、かなりの金額が節約できる。
AI に昔の帳尻を掘り返させない
大規模モデルには本当の記憶がない。ひたすら昔の帳尻を掘り返しているだけだ。
これは多くの人が知らない基底の仕組みだ。あなたがある会話ウィンドウで新しいメッセージを送るたびに、AI はあなたのその一文から理解を始めるのではなく、あなたたちがこれまで話したすべての内容、つまり各ラウンドの会話、各段落のコード、各引用ドキュメントまで全部を読み直してから回答する。
Token の請求書では、この「復習して学ぶ」は決して無料ではない。会話の回数が積み重なるほど、たとえ単に簡単な単語を追い質問するだけでも、AI の背後で丸ごと昔の帳尻を読み直すコストは指数関数的に増えていく。この仕組みが意味するのは、会話履歴が重いほど、あなたの一回の質問が高くつくということだ。
ある人が、20 件以上のメッセージを含む実際の会話 496 件を追跡したところ、1 件目のメッセージは平均 14,000 Token を読み、1 件あたりのコストは約 3.6 セントだった。50 件目では平均 79,000 Token を読み、1 件あたりのコストは約 4.5 セントになり、なんと 80% も高くなる。そしてコンテキストはさらに長くなり、50 件目で AI が再処理するコンテキストは 1 件目の 5.6 倍になっている。
この問題の最も簡単な習慣はこうだ。「1 タスクにつき 1 会話ウィンドウ」。
トピックが終わったら、きっぱり新しい会話を開始し、AI を永遠にオフにされないチャットウィンドウだと思わないこと。この癖は簡単そうに聞こえるが、多くの人はできない。「もし前の内容がまた必要になったら…」と感じてしまうからだ。だが実際に心配している「万一」の大半は起きない。そしてその「万一」のために、あなたは新しいメッセージごとに何倍ものお金を余計に払っている。
会話が本当に継続して必要になるとしても、コンテキストがすでに長くなってしまった場合は、いくつかのツールの圧縮機能を使える。Claude Code には /compact コマンドがあり、長々とした会話履歴を短い要約に圧縮できる。サイバースペースの断捨離を一度やる手助けになる。
他にも省銭のロジックとして Prompt Caching(プロンプトキャッシュ)がある。同じシステムプロンプトを繰り返し使う、または毎回同じ参考ドキュメントを引用する場合、AI はその部分をキャッシュする。次回の呼び出しでは、毎回フル価格で課金されるのではなく、少額のキャッシュ読み取り費用しか支払わなくてよくなる。
Anthropic の公式価格表示によると、キャッシュヒット時の Token 価格は通常価格の 1/10。OpenAI の Prompt Caching も入力コストをおよそ 50% 下げられる。2026 年 1 月に arXiv で発表されたある論文では、複数の AI プラットフォームで長いタスクをテストした結果、プロンプトキャッシュによって API コストを 45% から 80% まで下げられることが分かった。
つまり、同じ内容を最初に AI に渡すときは全額が必要だが、その後の呼び出しでは 1/10 だけで済む。同じ一式の規格ドキュメントやシステムプロンプトを毎日繰り返し使うユーザーにとって、この機能は大量の Token を節約できる。
ただし Prompt Caching には前提がある。システムプロンプトと参考ドキュメントの内容と順序を、完全に一致させて、かつ会話の最前に置いておかなければならない。内容に少しでも変更があるとキャッシュは無効になり、再び全額で課金される。だから、固定の作業規範があるなら、それを書き切って勝手に変えないこと。
最後のコンテキスト管理のコツは、必要に応じてロードすることだ。多くの人は、すべての規範、ドキュメント、注意事項をまとめてシステムプロンプトに突っ込むのが好きだ。その理由も「万一」のためだ。
だがその代償は、あなたが明らかにすごく単純なタスクをしているのに、数千字のルールまで読み込まされ、Token をむだに浪費してしまうことだ。Claude Code の公式ドキュメントは、CLAUDE.md を 200 行以内に抑え、異なるシーンごとの専門ルールは独立したスキルファイルに分け、使うシーンのルールだけをロードするように提案している。コンテキストを絶対的に純粋に保つことは、最も高度な計算資源への敬意だ。
ポルシェで買い物に行くな
異なる AI モデルは、価格差が非常に大きい。
Claude Opus 4.6 は 4000 Token 入力が 5 ドル、出力が 25 ドル。Claude Haiku 3.5 は入力 0.8 ドル、出力 4 ドルで、差はおよそ 6 倍になる。最上位のモデルに資料収集や整形フォーマットのような雑務をやらせるのは、遅いだけでなく非常に高くつく。
賢い使い方は、人間社会でよくある「階級による分業」という考え方を AI 社会に持ち込むことだ。難易度が異なるタスクを、異なる価格帯のモデルに割り当てる。
現実の世界で人を雇うとき、年収百万の専門家を工事現場でレンガを運ばせようとはしないだろう。
AI も同じだ。Claude Code の公式ドキュメントでも、明確にこう推奨している。Sonnet は大半のプログラミングタスクを担当し、Opus は複雑なアーキテクチャ判断や多段階の推理に回し、単純なサブタスクは Haiku を指定する。
より具体的な実務案は「二段階のワークフロー」を構築することだ。第一段階では、無料または低価格のベースモデルで前処理の汚れ仕事をやる。資料収集、フォーマットのクリーニング、初稿生成、簡単な分類や要約などだ。第二段階では、抽出して高純度にした精髄をトップレベルモデルに投入し、核心の判断と深い仕上げをしてもらう。
例を挙げよう。100 ページの業界レポートを分析したいなら、まず Gemini Flash を使ってレポート内の重要なデータと結論を抽出し、10 ページの要約に整理する。その後、その要約を Claude Opus に渡して深い分析と判断をしてもらう。こうした二段階ワークフローは、品質を保ったままコストを大幅に圧縮できる。
単純に段階的に処理するだけよりも進んだのは、タスク分解に基づく深い分業だ。複雑なエンジニアリング作業は、互いに独立したサブタスクに分解でき、それぞれに最適なモデルを割り当てられる。
例えばコードを書く必要があるタスクなら、安いモデルにまずフレームワークや雛形コードを書かせ、核心ロジックの部分だけを高いモデルに実装させる。各サブタスクはクリーンで集中したコンテキストを持つため、結果はより正確で、コストも低くなる。
あなたは本来 Token を払う必要がない
ここまでの議論は、本質的に「どうやって節約するか」という戦術の問題を解決してきたが、もっと根本的な論点が多くの人に見落とされている。それは、この行為自体に本当に Token を使う必要があるのか、という命題だ。
究極の節約は、アルゴリズムの最適化ではなく、意思決定の断捨離だ。私たちは AI に万能の解答を求めるのに慣れているが、多くの場面で高価な大モデルを呼ぶことは、高射砲で蚊を撃つのと同じだ。
例えば AI にメールを自動処理させると、AI はすべてのメールを独立したタスクとして理解し、分類し、返信しようとする。Token 消費は膨大になる。だがまず 30 秒で受信箱をざっと確認し、明らかに AI に処理させる必要のないメールを人手でふるい落としてから、残りを AI に任せれば、コストは最初の一部に一気に下がる。ここで人の判断力は障害ではなく、最高のフィルターになる。
電報時代の人々は、1 文字増えるほどいくら余計にかかるかを知っていたから、彼らは掂量していた。資源に対する直感的な感知だ。AI 時代でも同じだ。AI にもう一言多く言わせるのにどれだけの費用がかかるのかを本当に理解できたとき、あなたは自然に考えるはずだ。それは AI にやらせるべき価値があるのか。このタスクにはトップレベルのモデルが必要なのか、それとも安いモデルで足りるのか。このコンテキストはまだ使えるのか。
この掂量こそが、最も節約できる能力だ。計算資源がますます高価になる時代で最も賢い使い方は、AI に人を置き換えさせることではなく、AI と人がそれぞれ得意なことをやるようにすることだ。Token に敏感さが条件反射として身についたとき、あなたは初めて計算資源の従属者から、計算資源の主人へ戻れる。