DeepSeek這把槍 已經抵在硅谷後腦勺上

DeepSeek V4 發布後的幾天,硅谷那邊一直在發酵,也帶來了幾個更尖銳的問題討論:模型效率、晶片格局、IPO 時點、開源對閉源的擠壓。

4月29日,來自硅谷 101 的影片部落格,請到晶片架構師肖志斌和前 OpenAI 研究員 Jenny Xiao,兩人聊了一個多小時,把整件事徹底聊透了。

被開源超越,你的商業價值歸零

對談裡最狠的一句話,是 Jenny 去年就提出的概念——kill line(死亡線), 開源模型給閉源基礎模型公司畫的死亡線

"If you're a foundation model company and you get surpassed by open source, the value of your business is essentially zero."

如果你是一家基礎模型公司,被開源模型超越了,你的商業價值直接歸零。

這不是技術競爭,這是生死線。

Jenny 拿 Anthropic 舉了個例子:如果有一天 Claude 不再是編程最好的模型,誰還會用 Claude Code?

順著這個邏輯,4月24日 DeepSeek V4 一發布,硅谷所有閉源公司的股價和估值都面臨一個靈魂拷問:你的模型,現在還配賣這個價嗎?

拿價格說話最直觀:

GPT-5.5 比 GPT-5.4 貴了整整 2 倍,長文本 Pro 版本每百萬 token 180 美元

同一天,DeepSeek V4 發布。輸入 1元/百萬 token,輸出 24元/百萬 token。Flash 版更狠:輸入 0.2元/百萬 token,輸出 2元/百萬 token

一個貴了兩倍,一個便宜了十倍。

基礎模型公司的估值是二元的——你的存在理由就是模型最強。一旦不再最強,估值直接歸零。 哪怕你叫 OpenAI。

錢太多,反而不會省錢

Jenny 在對談裡戳破了一個硅谷不敢面對的真相:

"硅谷公司錢太多,反而沒動力優化效率。中國模型廠商被資源倒逼,更早進入 token efficiency 創新。"

資源約束,反而成了創新加速器。

OpenAI 從第一天就信奉"move fast, break things",GPU 放開買,infra 疯狂建。Anthropic 反而克制,怕收入跟不上,被採購成本拖死。

結果呢?同等收入下,Anthropic 的資本效率顯著高於 OpenAI

更麻煩的是,OpenAI 同時在打硬體部門、自研晶片、購物 App 幾條戰線,核心 ChatGPT 體驗反而沒做好。從去年底開始,副線專案一批批砍,Sora 也在裡面。

投資人心態徹底變了。以前看 AI 公司是"曲線還在指數增長,繼續投錢"。現在問的是:

"再投 10 億、100 億,邊際收益在哪?ROI 在哪?"

DeepSeek 給出的答案很直接:繼續擴 infra 的 ROI,可能已經不划算了。

創新都是被逼出來的。便宜本身,就是技術革命的前提。

每一次工業革命,推動變革的不只是技術有多牛,還在於技術有多便宜。只有便宜到普通人用得起,技術才能真正改變世界。

沒有效率,AGI 只能是個 demo

肖志斌讀完 V4 論文認為:"方向意料之內,工程完成度意外。"

V4 所有的技術優化,其實都瞄準了同一個靶心——token efficiency(詞元效率)。

它用了三把刀:

• Muon 優化器:部分訓練模組取代掉傳統 Adam,收斂速度進一步拉高

三件事合在一起,指向同一個結果:每個 token 的生成成本更低了,每次推理佔用的內存更少了。

計算成本降到硅谷模型的1/3,內存佔用只有 1/10

但 V4 真正讓人細思極恐的地方,遠不止"省錢"這麼簡單。

Jenny 在對談裡反覆提醒:Chatbot 時代,token 消耗有限,模型貴一點用戶也能忍。但 Agent 時代完全是另一套邏輯——長任務拆解、多工具調用、反覆反思和規劃,token 消耗是 chatbot 的 10 到 100 倍。

如果每個 token 都價格不菲,模型就沒法長時間深度思考,更不可能大規模服務用戶。

所以她抛出了那句定調的話:

沒有效率,AGI 只能是個 demo。有了效率,AGI 才能成為真正的產品。

到了 Agent 時代,效率本身就是智能的一部分。

Anthropic憑什麼反超到1萬億?專注 > 什麼都做

這段時間 Anthropic 估值反超 OpenAI,衝上 1 萬億美元

Jenny 把原因列了三條,但本質就五個字:專注 > 什麼都做。

第一,Claude Code。

為什麼 Claude Code 是 Anthropic 的"定義時刻"?

Anthropic 的模型一直很好,但 Claude Code 才是真正驅動收入的那個產品。OpenClaw 創始人 Peter Steinberger 直接寫了一篇文章:《Claude Code 就是我的電腦》。

一旦模型能寫程式,就能做通用任務——更新 CRM、轉發郵件、搭自動化流程,底層全是程式碼。

Jenny 的判斷很銳利:編程是通向 AGI 最重要的一步。誰拿下編程,誰就可能成為 AGI 時代的主導玩家。

第二,企業信任。

Jenny 基金裡的企業客戶反覆說同一句話:選 Anthropic,因為它有安全承諾。加上 Anthropic 起訴五角大樓那件事,企業接受了它傳遞的信號。

第三,不做多餘的事。

OpenAI 想做"一個所有人的所有東西",結果戰線分散,技術領先丟了。Anthropic 只打三條線:安全、企業、編程。

硅谷投資人認一個死理:企業收入優先於消費收入。 Anthropic 收入高度集中在企業,這恰恰是美國資本市場最愛的故事。

英偉達:短期安全,長期推理市場必然分化

說到晶片,目前都覺得 DeepSeek 在"去英偉達化"。

但實際情況要更細分。

訓練階段:DeepSeek V4 龐大體量的預訓練,毫無疑問是在龐大的 NVIDIA 集群上完成的。V4 英文技術報告第16頁,20頁提到的 TCGenO5,以及 MegaMoE² 等關鍵算子,都是深度綁定 CUDA 生态的底層優化。

**適配階段:**華為昇騰對外宣傳的是"0-day適配續訓/推理",AMD 宣傳的是"在 ROCm 上集成優化"。

注意一個關鍵措辭——"適配"。

這意味著,模型已經在 NVIDIA 集群上訓練定型了。昇騰和 AMD 所做的,是在事後用自己的軟體棧去"對接"這個已經訓練好的模型。是後向相容,不是原生取代

從這個角度看,短期之內,英偉達在訓練端的護城河比很多人想的要深。 CUDA 生态不是一兩年能搬走的。

但長期呢?推理市場確實在鬆動。

V4 把長上下文 attention 成本打下來後,大規模推理的門檻大幅降低。推理不再是"誰卡多誰贏",而是"誰架構匹配誰贏"。Google TPU、AMD、雲廠商自研晶片,甚至國產算力,都在這條線上找機會。

那個讓硅谷失眠的"80/20"信號

Jenny 投資組合裡有個數據:80% 的任務,跑在中小開源模型上。只有 20% 最複雜的任務,用到閉源模型。

往前推一年,沒人會信這個比例。

現在硅谷每天都能刷到這種資訊:"我們手裡有 1000 萬美元的 OpenAI 股票,你們基金在買嗎?或者認識誰在買嗎?"

4月29日那期硅谷101最後,Jenny 用一句話給整件事定了性:

"DeepSeek 像一把抵在硅谷模型公司背後的槍。這些公司如果跑得不夠快,DeepSeek 會追上來,把它們的業務徹底摧毀。"

這把槍,已經上膛了。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆