Claudeの中国語のトークン:同じ内容を尋ねるのに英語より65%多くのトークンを消費し、OpenAIはわずか15%多いだけ

robot
概要作成中

動態監測 Beating によると、AI 研究者の荒井小松崎は、リッチ・サットンの有名な論文「苦い教訓」(The Bitter Lesson)を9つの言語に翻訳し、それをOpenAI、Gemini、Qwen、DeepSeek、Kimi、Claudeの6つのモデルのトークナイザーに入力した。英語原文のトークン数をOpenAIのトークナイザーでの基準とし、各言語が各モデルでどれだけの倍数を消費するかを測定した。結果:同じ内容を中国語でClaudeに問いかけると、トークン消費は基準の1.65倍;OpenAIではわずか1.15倍だった。ヒンディー語はClaudeでさらに顕著で、基準の3倍超だった。6つの比較評価の中で、Anthropicが最も少なかった。

翻訳はテキストの長さを変えるため、英語と比べた倍数は完全に正確ではない。しかし、より説得力があるのは、同じ中国語の文章が異なるモデルでどのように表現されるか(同じ基準を用いて):Kimiはわずか0.81倍(英語より少ない)、Qwenは0.85倍、Claudeでは1.65倍に変わる。テキストは全く同じであり、差は純粋に分詞ツールの効率の問題だ。中国語モデルは英語よりも少ないトークンで処理できることから、問題は中国語自体ではなく、その言語に最適化された分詞ツールの有無にあることを示している。

ユーザーにとって、トークンが増えるとAPIのコストが直接高くなり、モデルの応答待ちも長くなり、コンテキストウィンドウも早く使い果たす。分詞ツールの効率は、訓練データ中の各言語の割合に依存する。英語データが多いと英語の単語は効率的に圧縮されるが、非英語データが少ないと断片化されやすい。荒井の結論:市場規模が大きいほど、より少ないトークンで済む。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン