アメリカのテクノロジー企業が静かに中国のオープンソースAIモデルを生産インフラに組み込んでいる。トップクラスのアメリカのモデルサービスコストが上昇し続ける中、Coinbaseのような企業は中国のオープンソースモデルをデフォルトオプションとして採用し、使用量を抑えずにAI支出を大幅に削減している。
CoinbaseのCEOであるBrian Armstrong氏は先週金曜日の夜、Xプラットフォームへの投稿で、同社が智譜(Zhipu)がリリースしたばかりのGLM 5.2と、北京月之暗面(Moonshot AI)のKimi 2.7を、内部LLMゲートウェイを通じてエンジニアのデフォルトモデルに設定したことを明らかにした。Armstrong氏は、ルーティング最適化とキャッシュ改善などの施策を組み合わせた結果、CoinbaseのAI支出は「ほぼ半分」削減され、トークン使用量は依然として指数関数的に増加していると述べた。
Armstrong氏は投稿で、エンジニアの91%が従来の使用上限に達したことがないため、Coinbaseは上限を引き下げたり消費アラートを追加したりする代わりに、「より安いデフォルトモデル」に切り替えたと明確に述べている。
GLM 5.2は智譜から、Kimi 2.7は北京月之暗面から提供されており、いずれもオープンソースのウェイトモデルである。Armstrong氏は、これらのモデルは通常のタスクシナリオに展開され、複雑な計画が必要なタスクにはエンジニアは引き続き最先端のモデルを選択できると述べた。彼の論理は、実行レベルでトップモデルを使用することはしばしば「大げさ」であるというものだ。
コードレビューの段階では、複数モデルを並行して使用する戦略を採用し、異なるモデルが出力結果を相互に検証することで品質基準を維持している。
Armstrong氏は3つの核心的な手段を挙げた。
第一はスマートルーティングである。カスタムスケジューリングフレームワークにおいて、システムはプロンプトを前処理し、キャッシュヒット率とモデル価格を総合的に考慮して、タスクを最も適切で経済的なモデルに自動的に振り分ける。彼は、最終的な目標は人間ではなくAIにモデル選択のタスクを任せることだと述べている。
第二は積極的なキャッシングである。Coinbaseはすべてのリクエストにキャッシュ認識機能を持たせ、既存のキャッシュを可能な限り再利用するよう要求している。例えばLibreChatでは、キャッシュメカニズムを適切に実装した後、キャッシュヒット率が5%から60%に跳ね上がった。
第三はコンテキストの削減である。Armstrong氏は、タスクを切り替える際に新しいセッションを開始し、ファイルのコンテキスト範囲を狭め、使用していないツール接続を切断することを推奨している。彼は、目標はトークンの総使用量を減らすことではなく、「無駄にされるトークン」を減らすことだと強調した。
Armstrong氏は今回のコスト削減を、AI導入規模拡大の前提条件であり、制限ではないと位置づけている。エンジニアは引き続き任意の数のトークンと任意のモデルを自由に使用できるが、会社は使用量データを可視化し、使用量とビジネスへの影響を関連付けた——「使えば使うほど、期待される影響も大きくなる」と述べている。
彼は具体的な絶対的な支出額は開示していない。しかし構造的には、使用量が指数関数的に増加する一方で支出がほぼ半減したということは、Coinbaseがある程度消費とコストの分離を達成したことを意味する。
Armstrong氏の結論は、この方法論は普遍性を持ち、どの企業でも参考にできるため、コストを天井とせずにAI使用規模の持続可能な拡大を実現できるというものだ。
リスク注意事項及び免責条項
市場にはリスクがあり、投資には慎重を要する。本稿は個人の投資アドバイスを構成するものではなく、特定のユーザーの特別な投資目標、財務状況、またはニーズを考慮していない。ユーザーは本稿の意見、見解、または結論が自身の特定の状況に適合するかを検討すべきである。これに基づく投資は、自己責任で行うこと。
1.65M 人気度
358.13K 人気度
65.71K 人気度
129.71K 人気度
605.57K 人気度
美国のテクノロジー企業がひそかに中国のAIモデルにシフトし、Coinbaseが先頭に立ってGLMとKimiを使い始めた。
アメリカのテクノロジー企業が静かに中国のオープンソースAIモデルを生産インフラに組み込んでいる。トップクラスのアメリカのモデルサービスコストが上昇し続ける中、Coinbaseのような企業は中国のオープンソースモデルをデフォルトオプションとして採用し、使用量を抑えずにAI支出を大幅に削減している。
CoinbaseのCEOであるBrian Armstrong氏は先週金曜日の夜、Xプラットフォームへの投稿で、同社が智譜(Zhipu)がリリースしたばかりのGLM 5.2と、北京月之暗面(Moonshot AI)のKimi 2.7を、内部LLMゲートウェイを通じてエンジニアのデフォルトモデルに設定したことを明らかにした。Armstrong氏は、ルーティング最適化とキャッシュ改善などの施策を組み合わせた結果、CoinbaseのAI支出は「ほぼ半分」削減され、トークン使用量は依然として指数関数的に増加していると述べた。
中国のオープンソースモデルのコスト優位性が前面に
Armstrong氏は投稿で、エンジニアの91%が従来の使用上限に達したことがないため、Coinbaseは上限を引き下げたり消費アラートを追加したりする代わりに、「より安いデフォルトモデル」に切り替えたと明確に述べている。
GLM 5.2は智譜から、Kimi 2.7は北京月之暗面から提供されており、いずれもオープンソースのウェイトモデルである。Armstrong氏は、これらのモデルは通常のタスクシナリオに展開され、複雑な計画が必要なタスクにはエンジニアは引き続き最先端のモデルを選択できると述べた。彼の論理は、実行レベルでトップモデルを使用することはしばしば「大げさ」であるというものだ。
コードレビューの段階では、複数モデルを並行して使用する戦略を採用し、異なるモデルが出力結果を相互に検証することで品質基準を維持している。
3層のインフラ再構築がコスト削減を促進
Armstrong氏は3つの核心的な手段を挙げた。
第一はスマートルーティングである。カスタムスケジューリングフレームワークにおいて、システムはプロンプトを前処理し、キャッシュヒット率とモデル価格を総合的に考慮して、タスクを最も適切で経済的なモデルに自動的に振り分ける。彼は、最終的な目標は人間ではなくAIにモデル選択のタスクを任せることだと述べている。
第二は積極的なキャッシングである。Coinbaseはすべてのリクエストにキャッシュ認識機能を持たせ、既存のキャッシュを可能な限り再利用するよう要求している。例えばLibreChatでは、キャッシュメカニズムを適切に実装した後、キャッシュヒット率が5%から60%に跳ね上がった。
第三はコンテキストの削減である。Armstrong氏は、タスクを切り替える際に新しいセッションを開始し、ファイルのコンテキスト範囲を狭め、使用していないツール接続を切断することを推奨している。彼は、目標はトークンの総使用量を減らすことではなく、「無駄にされるトークン」を減らすことだと強調した。
効率優先、使用抑制ではない
Armstrong氏は今回のコスト削減を、AI導入規模拡大の前提条件であり、制限ではないと位置づけている。エンジニアは引き続き任意の数のトークンと任意のモデルを自由に使用できるが、会社は使用量データを可視化し、使用量とビジネスへの影響を関連付けた——「使えば使うほど、期待される影響も大きくなる」と述べている。
彼は具体的な絶対的な支出額は開示していない。しかし構造的には、使用量が指数関数的に増加する一方で支出がほぼ半減したということは、Coinbaseがある程度消費とコストの分離を達成したことを意味する。
Armstrong氏の結論は、この方法論は普遍性を持ち、どの企業でも参考にできるため、コストを天井とせずにAI使用規模の持続可能な拡大を実現できるというものだ。
リスク注意事項及び免責条項