アメリカのテクノロジー企業は、静かに中国のオープンソースAIモデルを生産インフラに取り入れている。最高峰のアメリカのモデルサービスのコストが上昇し続ける中、Coinbaseに代表される企業は、中国のオープンソースモデルをデフォルトオプションとして採用し、使用量を抑制することなくAI支出を大幅に削減している。
CoinbaseのCEOであるBrian Armstrong氏は先週金曜日の夜、Xプラットフォームへの投稿で、同社が智谱(Zhipu)の最新リリースであるGLM 5.2と、北京月之暗面(Moonshot AI)のKimi 2.7を、内部LLMゲートウェイを介してエンジニアのデフォルトモデルに設定したことを明らかにした。Armstrong氏は、ルーティング最適化とキャッシュ改善などの対策を組み合わせた結果、CoinbaseのAI支出は「ほぼ半分」に削減された一方、トークン使用量は指数関数的な成長を続けていると述べた。
Armstrong氏は投稿で、エンジニアの91%が元の使用上限に達したことがないため、Coinbaseは上限を引き下げたり消費アラートを追加したりするのではなく、「より安価なデフォルトモデル」に切り替えたと明言した。
GLM 5.2は智谱(Zhipu)から、Kimi 2.7は北京月之暗面(Moonshot AI)から提供されており、いずれもオープンソースの重みモデルである。Armstrong氏によれば、これらのモデルは通常のタスクシナリオに展開されており、複雑な計画が必要なタスクでは、エンジニアは引き続き最先端モデルを選択できる。彼の論理は、実行レベルでトップモデルを使用することは「大げさすぎる」ことが多いというものだ。
コードレビューでは、複数のモデルを並行して使用し、異なるモデルが互いの出力を検証することで品質基準を維持する戦略を採用している。
Armstrong氏は3つの核心的な手段を挙げた。
第一にスマートルーティング:カスタムスケジューリングフレームワークにおいて、システムはプロンプトを前処理し、キャッシュヒット率とモデル価格を総合的に考慮して、タスクを最適かつ最も経済的なモデルに自動的に振り分ける。彼は、最終的な目標は人間ではなくAIがモデル選択のタスクを実行することだと述べた。
第二に積極的なキャッシュ:Coinbaseはすべてのリクエストにキャッシュ認識能力を要求し、既存のキャッシュを可能な限り再利用する。例としてLibreChatでは、キャッシュ機構を適切に実装した後、キャッシュヒット率が5%から60%に跳ね上がった。
第三にコンテキストの簡素化:Armstrong氏は、タスクを切り替える際に新しいセッションを開始し、ファイルのコンテキスト範囲を狭め、未使用のツール接続を切断することを推奨している。彼は、目標はトークンの総使用量を減らすことではなく、「無駄にされるトークン」を減らすことだと強調した。
Armstrong氏は今回のコスト削減を、制限ではなくAI採用規模拡大の前提条件として位置づけた。彼は、エンジニアは引き続き任意の数のトークンと任意のモデルを自由に使用できるが、企業は使用量データを可視化し、使用量をビジネスへの影響と結びつけている——「使えば使うほど、期待される影響も大きくなる」と述べた。具体的な絶対支出額は開示されていない。しかし構造的に見ると、使用量が指数関数的に増加する中で支出をほぼ半減させたことは、Coinbaseがある程度消費とコストの分離を実現したことを意味する。
Armstrong氏の結論は、この方法論は普遍性があり、どの企業でも参考にできるため、コストを天井とせずにAI使用規模の持続可能な拡大を実現できるというものだ。
1.66M 人気度
356.91K 人気度
65.51K 人気度
129.42K 人気度
604.87K 人気度
アメリカ企業が中国のAIモデルにシフト、Coinbaseが先陣を切りGLMとKimiを使用
アメリカのテクノロジー企業は、静かに中国のオープンソースAIモデルを生産インフラに取り入れている。最高峰のアメリカのモデルサービスのコストが上昇し続ける中、Coinbaseに代表される企業は、中国のオープンソースモデルをデフォルトオプションとして採用し、使用量を抑制することなくAI支出を大幅に削減している。
CoinbaseのCEOであるBrian Armstrong氏は先週金曜日の夜、Xプラットフォームへの投稿で、同社が智谱(Zhipu)の最新リリースであるGLM 5.2と、北京月之暗面(Moonshot AI)のKimi 2.7を、内部LLMゲートウェイを介してエンジニアのデフォルトモデルに設定したことを明らかにした。Armstrong氏は、ルーティング最適化とキャッシュ改善などの対策を組み合わせた結果、CoinbaseのAI支出は「ほぼ半分」に削減された一方、トークン使用量は指数関数的な成長を続けていると述べた。
中国のオープンソースモデルのコスト優位性が浮き彫りに
Armstrong氏は投稿で、エンジニアの91%が元の使用上限に達したことがないため、Coinbaseは上限を引き下げたり消費アラートを追加したりするのではなく、「より安価なデフォルトモデル」に切り替えたと明言した。
GLM 5.2は智谱(Zhipu)から、Kimi 2.7は北京月之暗面(Moonshot AI)から提供されており、いずれもオープンソースの重みモデルである。Armstrong氏によれば、これらのモデルは通常のタスクシナリオに展開されており、複雑な計画が必要なタスクでは、エンジニアは引き続き最先端モデルを選択できる。彼の論理は、実行レベルでトップモデルを使用することは「大げさすぎる」ことが多いというものだ。
コードレビューでは、複数のモデルを並行して使用し、異なるモデルが互いの出力を検証することで品質基準を維持する戦略を採用している。
3層のインフラ再構築によるコスト削減
Armstrong氏は3つの核心的な手段を挙げた。
第一にスマートルーティング:カスタムスケジューリングフレームワークにおいて、システムはプロンプトを前処理し、キャッシュヒット率とモデル価格を総合的に考慮して、タスクを最適かつ最も経済的なモデルに自動的に振り分ける。彼は、最終的な目標は人間ではなくAIがモデル選択のタスクを実行することだと述べた。
第二に積極的なキャッシュ:Coinbaseはすべてのリクエストにキャッシュ認識能力を要求し、既存のキャッシュを可能な限り再利用する。例としてLibreChatでは、キャッシュ機構を適切に実装した後、キャッシュヒット率が5%から60%に跳ね上がった。
第三にコンテキストの簡素化:Armstrong氏は、タスクを切り替える際に新しいセッションを開始し、ファイルのコンテキスト範囲を狭め、未使用のツール接続を切断することを推奨している。彼は、目標はトークンの総使用量を減らすことではなく、「無駄にされるトークン」を減らすことだと強調した。
効率優先、使用抑制ではなく
Armstrong氏は今回のコスト削減を、制限ではなくAI採用規模拡大の前提条件として位置づけた。彼は、エンジニアは引き続き任意の数のトークンと任意のモデルを自由に使用できるが、企業は使用量データを可視化し、使用量をビジネスへの影響と結びつけている——「使えば使うほど、期待される影響も大きくなる」と述べた。具体的な絶対支出額は開示されていない。しかし構造的に見ると、使用量が指数関数的に増加する中で支出をほぼ半減させたことは、Coinbaseがある程度消費とコストの分離を実現したことを意味する。
Armstrong氏の結論は、この方法論は普遍性があり、どの企業でも参考にできるため、コストを天井とせずにAI使用規模の持続可能な拡大を実現できるというものだ。