動態監測 Beating によると、AI 研究者の荒井小松崎は、リッチ・サットンの有名な論文「苦い教訓」(The Bitter Lesson)を9つの言語に翻訳し、それをOpenAI、Gemini、Qwen、DeepSeek、Kimi、Claudeの6つのモデルのトークナイザーに入力した。英語原文のトークン数をOpenAIのトークナイザーでの基準とし、各言語が各モデルでどれだけの倍数を消費するかを測定した。結果:同じ内容を中国語でClaudeに問いかけると、トークン消費は基準の1.65倍;OpenAIではわずか1.15倍だった。ヒンディー語はClaudeでさらに顕著で、基準の3倍超だった。6つの比較評価の中で、Anthropicが最も少なかった。 翻訳はテキストの長さを変えるため、英語と比べた倍数は完全に正確ではない。しかし、より説得力があるのは、同じ中国語の文章が異なるモデルでどのように表現されるか(同じ基準を用いて):Kimiはわずか0.81倍(英語より少ない)、Qwenは0.85倍、Claudeでは1.65倍に変わる。テキストは全く同じであり、差は純粋に分詞ツールの効率の問題だ。中国語モデルは英語よりも少ないトークンで処理できることから、問題は中国語自体ではなく、その言語に最適化された分詞ツールの有無にあることを示している。 ユーザーにとって、トークンが増えるとAPIのコストが直接高くなり、モデルの応答待ちも長くなり、コンテキストウィンドウも早く使い果たす。分詞ツールの効率は、訓練データ中の各言語の割合に依存する。英語データが多いと英語の単語は効率的に圧縮されるが、非英語データが少ないと断片化されやすい。荒井の結論:市場規模が大きいほど、より少ないトークンで済む。
Claudeの中国語のトークン:同じ内容を尋ねるのに英語より65%多くのトークンを消費し、OpenAIはわずか15%多いだけ
動態監測 Beating によると、AI 研究者の荒井小松崎は、リッチ・サットンの有名な論文「苦い教訓」(The Bitter Lesson)を9つの言語に翻訳し、それをOpenAI、Gemini、Qwen、DeepSeek、Kimi、Claudeの6つのモデルのトークナイザーに入力した。英語原文のトークン数をOpenAIのトークナイザーでの基準とし、各言語が各モデルでどれだけの倍数を消費するかを測定した。結果:同じ内容を中国語でClaudeに問いかけると、トークン消費は基準の1.65倍;OpenAIではわずか1.15倍だった。ヒンディー語はClaudeでさらに顕著で、基準の3倍超だった。6つの比較評価の中で、Anthropicが最も少なかった。
翻訳はテキストの長さを変えるため、英語と比べた倍数は完全に正確ではない。しかし、より説得力があるのは、同じ中国語の文章が異なるモデルでどのように表現されるか(同じ基準を用いて):Kimiはわずか0.81倍(英語より少ない)、Qwenは0.85倍、Claudeでは1.65倍に変わる。テキストは全く同じであり、差は純粋に分詞ツールの効率の問題だ。中国語モデルは英語よりも少ないトークンで処理できることから、問題は中国語自体ではなく、その言語に最適化された分詞ツールの有無にあることを示している。
ユーザーにとって、トークンが増えるとAPIのコストが直接高くなり、モデルの応答待ちも長くなり、コンテキストウィンドウも早く使い果たす。分詞ツールの効率は、訓練データ中の各言語の割合に依存する。英語データが多いと英語の単語は効率的に圧縮されるが、非英語データが少ないと断片化されやすい。荒井の結論:市場規模が大きいほど、より少ないトークンで済む。