美國科技企業正在悄然將中國開源AI模型納入生產基礎設施。隨著頂尖美國模型服務成本持續攀升,以Coinbase為代表的企業開始以中國開源模型作為默認選項,以此在不壓制使用量的前提下大幅壓縮AI開支。
Coinbase首席執行官Brian Armstrong於上週五晚間在X平台發文披露,公司已將智譜旗下剛剛發布的GLM 5.2以及北京月之暗面旗下的Kimi 2.7,通過內部LLM網關設定為工程師的默認模型。Armstrong表示,在結合路由優化與緩存改進等措施後,Coinbase的AI支出已削減"近一半",而token使用量仍在以指數級增速增長。
Armstrong在帖子中明確指出,91%的工程師從未觸及原有的使用上限,因此Coinbase並未選擇降低上限或增設消費提醒,而是轉向"更便宜的默認模型"。
GLM 5.2來自智譜,Kimi 2.7來自北京月之暗面,二者均屬開源權重模型。Armstrong表示,這些模型被部署於常規任務場景,而對於需要複雜規劃的任務,工程師仍可選用前沿模型。他的邏輯是:在執行層面使用頂級模型往往是"大材小用"。
代碼審查環節則採用多模型並行策略,讓不同模型相互校驗輸出結果,以維持質量標準。
Armstrong列出了三項核心手段。
第一是智能路由:在自定義調度框架中,系統對提示詞進行預處理,綜合緩存命中率與模型定價,將任務自動分發至最合適、最經濟的模型。他表示,最終目標是讓AI而非人工來完成模型選擇這一任務。
第二是積極緩存:Coinbase要求所有請求具備緩存感知能力,盡量複用已有緩存。以LibreChat為例,在正確實施緩存機制後,緩存命中率從5%躍升至60%。
第三是精簡上下文:Armstrong建議在切換任務時開啟新會話,縮小文件上下文範圍,斷開未使用的工具連接。他強調,目標不是減少token使用總量,而是減少"被浪費的token"。
Armstrong將此次成本壓縮定性為擴大AI採用規模的前提條件,而非一種限制。他表示,工程師仍可自由使用任意數量的token和任意模型,但公司已將用量數據可視化,並將使用量與業務影響掛鉤——"花得越多,我們期望的影響也越大"。
他並未披露具體的絕對支出數字。但從結構上看,在使用量指數增長的同時實現支出近半削減,意味著Coinbase已在一定程度上實現了消耗與成本的解耦。
Armstrong的結論是,這套方法論具有普適性,任何企業均可借鑑,以便在不將成本設為天花板的前提下,實現AI使用規模的可持續擴張。
風險提示及免責條款
市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用戶特殊的投資目標、財務狀況或需要。用戶應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。
166.67萬 熱度
35.89萬 熱度
12.97萬 熱度
60.6萬 熱度
100.84萬 熱度
美國科技企業悄然轉向中國AI模型,Coinbase帶頭用上GLM與Kimi
美國科技企業正在悄然將中國開源AI模型納入生產基礎設施。隨著頂尖美國模型服務成本持續攀升,以Coinbase為代表的企業開始以中國開源模型作為默認選項,以此在不壓制使用量的前提下大幅壓縮AI開支。
Coinbase首席執行官Brian Armstrong於上週五晚間在X平台發文披露,公司已將智譜旗下剛剛發布的GLM 5.2以及北京月之暗面旗下的Kimi 2.7,通過內部LLM網關設定為工程師的默認模型。Armstrong表示,在結合路由優化與緩存改進等措施後,Coinbase的AI支出已削減"近一半",而token使用量仍在以指數級增速增長。
中國開源模型成本優勢被擺上台面
Armstrong在帖子中明確指出,91%的工程師從未觸及原有的使用上限,因此Coinbase並未選擇降低上限或增設消費提醒,而是轉向"更便宜的默認模型"。
GLM 5.2來自智譜,Kimi 2.7來自北京月之暗面,二者均屬開源權重模型。Armstrong表示,這些模型被部署於常規任務場景,而對於需要複雜規劃的任務,工程師仍可選用前沿模型。他的邏輯是:在執行層面使用頂級模型往往是"大材小用"。
代碼審查環節則採用多模型並行策略,讓不同模型相互校驗輸出結果,以維持質量標準。
三層基礎設施重構驅動成本削減
Armstrong列出了三項核心手段。
第一是智能路由:在自定義調度框架中,系統對提示詞進行預處理,綜合緩存命中率與模型定價,將任務自動分發至最合適、最經濟的模型。他表示,最終目標是讓AI而非人工來完成模型選擇這一任務。
第二是積極緩存:Coinbase要求所有請求具備緩存感知能力,盡量複用已有緩存。以LibreChat為例,在正確實施緩存機制後,緩存命中率從5%躍升至60%。
第三是精簡上下文:Armstrong建議在切換任務時開啟新會話,縮小文件上下文範圍,斷開未使用的工具連接。他強調,目標不是減少token使用總量,而是減少"被浪費的token"。
效率優先,而非壓制使用
Armstrong將此次成本壓縮定性為擴大AI採用規模的前提條件,而非一種限制。他表示,工程師仍可自由使用任意數量的token和任意模型,但公司已將用量數據可視化,並將使用量與業務影響掛鉤——"花得越多,我們期望的影響也越大"。
他並未披露具體的絕對支出數字。但從結構上看,在使用量指數增長的同時實現支出近半削減,意味著Coinbase已在一定程度上實現了消耗與成本的解耦。
Armstrong的結論是,這套方法論具有普適性,任何企業均可借鑑,以便在不將成本設為天花板的前提下,實現AI使用規模的可持續擴張。
風險提示及免責條款