DeepSeek V4 發布後的幾天,硅谷那邊一直在發酵,也帶來了幾個更尖銳的問題討論:模型效率、晶片格局、IPO 時點、開源對閉源的擠壓。
4月29日,來自硅谷 101 的影片部落格,請到晶片架構師肖志斌和前 OpenAI 研究員 Jenny Xiao,兩人聊了一個多小時,把整件事徹底聊透了。
對談裡最狠的一句話,是 Jenny 去年就提出的概念——kill line(死亡線), 開源模型給閉源基礎模型公司畫的死亡線。
"If you're a foundation model company and you get surpassed by open source, the value of your business is essentially zero." 如果你是一家基礎模型公司,被開源模型超越了,你的商業價值直接歸零。
"If you're a foundation model company and you get surpassed by open source, the value of your business is essentially zero."
如果你是一家基礎模型公司,被開源模型超越了,你的商業價值直接歸零。
這不是技術競爭,這是生死線。
Jenny 拿 Anthropic 舉了個例子:如果有一天 Claude 不再是編程最好的模型,誰還會用 Claude Code?
順著這個邏輯,4月24日 DeepSeek V4 一發布,硅谷所有閉源公司的股價和估值都面臨一個靈魂拷問:你的模型,現在還配賣這個價嗎?
拿價格說話最直觀:
GPT-5.5 比 GPT-5.4 貴了整整 2 倍,長文本 Pro 版本每百萬 token 180 美元。
同一天,DeepSeek V4 發布。輸入 1元/百萬 token,輸出 24元/百萬 token。Flash 版更狠:輸入 0.2元/百萬 token,輸出 2元/百萬 token。
一個貴了兩倍,一個便宜了十倍。
基礎模型公司的估值是二元的——你的存在理由就是模型最強。一旦不再最強,估值直接歸零。 哪怕你叫 OpenAI。
Jenny 在對談裡戳破了一個硅谷不敢面對的真相:
"硅谷公司錢太多,反而沒動力優化效率。中國模型廠商被資源倒逼,更早進入 token efficiency 創新。"
資源約束,反而成了創新加速器。
OpenAI 從第一天就信奉"move fast, break things",GPU 放開買,infra 疯狂建。Anthropic 反而克制,怕收入跟不上,被採購成本拖死。
結果呢?同等收入下,Anthropic 的資本效率顯著高於 OpenAI。
更麻煩的是,OpenAI 同時在打硬體部門、自研晶片、購物 App 幾條戰線,核心 ChatGPT 體驗反而沒做好。從去年底開始,副線專案一批批砍,Sora 也在裡面。
投資人心態徹底變了。以前看 AI 公司是"曲線還在指數增長,繼續投錢"。現在問的是:
"再投 10 億、100 億,邊際收益在哪?ROI 在哪?"
DeepSeek 給出的答案很直接:繼續擴 infra 的 ROI,可能已經不划算了。
創新都是被逼出來的。便宜本身,就是技術革命的前提。
每一次工業革命,推動變革的不只是技術有多牛,還在於技術有多便宜。只有便宜到普通人用得起,技術才能真正改變世界。
肖志斌讀完 V4 論文認為:"方向意料之內,工程完成度意外。"
V4 所有的技術優化,其實都瞄準了同一個靶心——token efficiency(詞元效率)。
它用了三把刀:
• Muon 優化器:部分訓練模組取代掉傳統 Adam,收斂速度進一步拉高
三件事合在一起,指向同一個結果:每個 token 的生成成本更低了,每次推理佔用的內存更少了。
計算成本降到硅谷模型的1/3,內存佔用只有 1/10。
但 V4 真正讓人細思極恐的地方,遠不止"省錢"這麼簡單。
Jenny 在對談裡反覆提醒:Chatbot 時代,token 消耗有限,模型貴一點用戶也能忍。但 Agent 時代完全是另一套邏輯——長任務拆解、多工具調用、反覆反思和規劃,token 消耗是 chatbot 的 10 到 100 倍。
如果每個 token 都價格不菲,模型就沒法長時間深度思考,更不可能大規模服務用戶。
所以她抛出了那句定調的話:
沒有效率,AGI 只能是個 demo。有了效率,AGI 才能成為真正的產品。
到了 Agent 時代,效率本身就是智能的一部分。
這段時間 Anthropic 估值反超 OpenAI,衝上 1 萬億美元。
Jenny 把原因列了三條,但本質就五個字:專注 > 什麼都做。
第一,Claude Code。
為什麼 Claude Code 是 Anthropic 的"定義時刻"?
Anthropic 的模型一直很好,但 Claude Code 才是真正驅動收入的那個產品。OpenClaw 創始人 Peter Steinberger 直接寫了一篇文章:《Claude Code 就是我的電腦》。
一旦模型能寫程式,就能做通用任務——更新 CRM、轉發郵件、搭自動化流程,底層全是程式碼。
Jenny 的判斷很銳利:編程是通向 AGI 最重要的一步。誰拿下編程,誰就可能成為 AGI 時代的主導玩家。
第二,企業信任。
Jenny 基金裡的企業客戶反覆說同一句話:選 Anthropic,因為它有安全承諾。加上 Anthropic 起訴五角大樓那件事,企業接受了它傳遞的信號。
第三,不做多餘的事。
OpenAI 想做"一個所有人的所有東西",結果戰線分散,技術領先丟了。Anthropic 只打三條線:安全、企業、編程。
硅谷投資人認一個死理:企業收入優先於消費收入。 Anthropic 收入高度集中在企業,這恰恰是美國資本市場最愛的故事。
說到晶片,目前都覺得 DeepSeek 在"去英偉達化"。
但實際情況要更細分。
訓練階段:DeepSeek V4 龐大體量的預訓練,毫無疑問是在龐大的 NVIDIA 集群上完成的。V4 英文技術報告第16頁,20頁提到的 TCGenO5,以及 MegaMoE² 等關鍵算子,都是深度綁定 CUDA 生态的底層優化。
**適配階段:**華為昇騰對外宣傳的是"0-day適配續訓/推理",AMD 宣傳的是"在 ROCm 上集成優化"。
注意一個關鍵措辭——"適配"。
這意味著,模型已經在 NVIDIA 集群上訓練定型了。昇騰和 AMD 所做的,是在事後用自己的軟體棧去"對接"這個已經訓練好的模型。是後向相容,不是原生取代。
從這個角度看,短期之內,英偉達在訓練端的護城河比很多人想的要深。 CUDA 生态不是一兩年能搬走的。
但長期呢?推理市場確實在鬆動。
V4 把長上下文 attention 成本打下來後,大規模推理的門檻大幅降低。推理不再是"誰卡多誰贏",而是"誰架構匹配誰贏"。Google TPU、AMD、雲廠商自研晶片,甚至國產算力,都在這條線上找機會。
Jenny 投資組合裡有個數據:80% 的任務,跑在中小開源模型上。只有 20% 最複雜的任務,用到閉源模型。
往前推一年,沒人會信這個比例。
現在硅谷每天都能刷到這種資訊:"我們手裡有 1000 萬美元的 OpenAI 股票,你們基金在買嗎?或者認識誰在買嗎?"
4月29日那期硅谷101最後,Jenny 用一句話給整件事定了性:
"DeepSeek 像一把抵在硅谷模型公司背後的槍。這些公司如果跑得不夠快,DeepSeek 會追上來,把它們的業務徹底摧毀。"
這把槍,已經上膛了。
19.4萬 熱度
3.6萬 熱度
13.4萬 熱度
383.01萬 熱度
5548.03萬 熱度
DeepSeek這把槍 已經抵在硅谷後腦勺上
DeepSeek V4 發布後的幾天,硅谷那邊一直在發酵,也帶來了幾個更尖銳的問題討論:模型效率、晶片格局、IPO 時點、開源對閉源的擠壓。
4月29日,來自硅谷 101 的影片部落格,請到晶片架構師肖志斌和前 OpenAI 研究員 Jenny Xiao,兩人聊了一個多小時,把整件事徹底聊透了。
被開源超越,你的商業價值歸零
對談裡最狠的一句話,是 Jenny 去年就提出的概念——kill line(死亡線), 開源模型給閉源基礎模型公司畫的死亡線。
這不是技術競爭,這是生死線。
Jenny 拿 Anthropic 舉了個例子:如果有一天 Claude 不再是編程最好的模型,誰還會用 Claude Code?
順著這個邏輯,4月24日 DeepSeek V4 一發布,硅谷所有閉源公司的股價和估值都面臨一個靈魂拷問:你的模型,現在還配賣這個價嗎?
拿價格說話最直觀:
GPT-5.5 比 GPT-5.4 貴了整整 2 倍,長文本 Pro 版本每百萬 token 180 美元。
同一天,DeepSeek V4 發布。輸入 1元/百萬 token,輸出 24元/百萬 token。Flash 版更狠:輸入 0.2元/百萬 token,輸出 2元/百萬 token。
一個貴了兩倍,一個便宜了十倍。
基礎模型公司的估值是二元的——你的存在理由就是模型最強。一旦不再最強,估值直接歸零。 哪怕你叫 OpenAI。
錢太多,反而不會省錢
Jenny 在對談裡戳破了一個硅谷不敢面對的真相:
"硅谷公司錢太多,反而沒動力優化效率。中國模型廠商被資源倒逼,更早進入 token efficiency 創新。"
資源約束,反而成了創新加速器。
OpenAI 從第一天就信奉"move fast, break things",GPU 放開買,infra 疯狂建。Anthropic 反而克制,怕收入跟不上,被採購成本拖死。
結果呢?同等收入下,Anthropic 的資本效率顯著高於 OpenAI。
更麻煩的是,OpenAI 同時在打硬體部門、自研晶片、購物 App 幾條戰線,核心 ChatGPT 體驗反而沒做好。從去年底開始,副線專案一批批砍,Sora 也在裡面。
投資人心態徹底變了。以前看 AI 公司是"曲線還在指數增長,繼續投錢"。現在問的是:
"再投 10 億、100 億,邊際收益在哪?ROI 在哪?"
DeepSeek 給出的答案很直接:繼續擴 infra 的 ROI,可能已經不划算了。
創新都是被逼出來的。便宜本身,就是技術革命的前提。
每一次工業革命,推動變革的不只是技術有多牛,還在於技術有多便宜。只有便宜到普通人用得起,技術才能真正改變世界。
沒有效率,AGI 只能是個 demo
肖志斌讀完 V4 論文認為:"方向意料之內,工程完成度意外。"
V4 所有的技術優化,其實都瞄準了同一個靶心——token efficiency(詞元效率)。
它用了三把刀:
• Muon 優化器:部分訓練模組取代掉傳統 Adam,收斂速度進一步拉高
三件事合在一起,指向同一個結果:每個 token 的生成成本更低了,每次推理佔用的內存更少了。
計算成本降到硅谷模型的1/3,內存佔用只有 1/10。
但 V4 真正讓人細思極恐的地方,遠不止"省錢"這麼簡單。
Jenny 在對談裡反覆提醒:Chatbot 時代,token 消耗有限,模型貴一點用戶也能忍。但 Agent 時代完全是另一套邏輯——長任務拆解、多工具調用、反覆反思和規劃,token 消耗是 chatbot 的 10 到 100 倍。
如果每個 token 都價格不菲,模型就沒法長時間深度思考,更不可能大規模服務用戶。
所以她抛出了那句定調的話:
沒有效率,AGI 只能是個 demo。有了效率,AGI 才能成為真正的產品。
到了 Agent 時代,效率本身就是智能的一部分。
Anthropic憑什麼反超到1萬億?專注 > 什麼都做
這段時間 Anthropic 估值反超 OpenAI,衝上 1 萬億美元。
Jenny 把原因列了三條,但本質就五個字:專注 > 什麼都做。
第一,Claude Code。
為什麼 Claude Code 是 Anthropic 的"定義時刻"?
Anthropic 的模型一直很好,但 Claude Code 才是真正驅動收入的那個產品。OpenClaw 創始人 Peter Steinberger 直接寫了一篇文章:《Claude Code 就是我的電腦》。
一旦模型能寫程式,就能做通用任務——更新 CRM、轉發郵件、搭自動化流程,底層全是程式碼。
Jenny 的判斷很銳利:編程是通向 AGI 最重要的一步。誰拿下編程,誰就可能成為 AGI 時代的主導玩家。
第二,企業信任。
Jenny 基金裡的企業客戶反覆說同一句話:選 Anthropic,因為它有安全承諾。加上 Anthropic 起訴五角大樓那件事,企業接受了它傳遞的信號。
第三,不做多餘的事。
OpenAI 想做"一個所有人的所有東西",結果戰線分散,技術領先丟了。Anthropic 只打三條線:安全、企業、編程。
硅谷投資人認一個死理:企業收入優先於消費收入。 Anthropic 收入高度集中在企業,這恰恰是美國資本市場最愛的故事。
英偉達:短期安全,長期推理市場必然分化
說到晶片,目前都覺得 DeepSeek 在"去英偉達化"。
但實際情況要更細分。
訓練階段:DeepSeek V4 龐大體量的預訓練,毫無疑問是在龐大的 NVIDIA 集群上完成的。V4 英文技術報告第16頁,20頁提到的 TCGenO5,以及 MegaMoE² 等關鍵算子,都是深度綁定 CUDA 生态的底層優化。
**適配階段:**華為昇騰對外宣傳的是"0-day適配續訓/推理",AMD 宣傳的是"在 ROCm 上集成優化"。
注意一個關鍵措辭——"適配"。
這意味著,模型已經在 NVIDIA 集群上訓練定型了。昇騰和 AMD 所做的,是在事後用自己的軟體棧去"對接"這個已經訓練好的模型。是後向相容,不是原生取代。
從這個角度看,短期之內,英偉達在訓練端的護城河比很多人想的要深。 CUDA 生态不是一兩年能搬走的。
但長期呢?推理市場確實在鬆動。
V4 把長上下文 attention 成本打下來後,大規模推理的門檻大幅降低。推理不再是"誰卡多誰贏",而是"誰架構匹配誰贏"。Google TPU、AMD、雲廠商自研晶片,甚至國產算力,都在這條線上找機會。
那個讓硅谷失眠的"80/20"信號
Jenny 投資組合裡有個數據:80% 的任務,跑在中小開源模型上。只有 20% 最複雜的任務,用到閉源模型。
往前推一年,沒人會信這個比例。
現在硅谷每天都能刷到這種資訊:"我們手裡有 1000 萬美元的 OpenAI 股票,你們基金在買嗎?或者認識誰在買嗎?"
4月29日那期硅谷101最後,Jenny 用一句話給整件事定了性:
"DeepSeek 像一把抵在硅谷模型公司背後的槍。這些公司如果跑得不夠快,DeepSeek 會追上來,把它們的業務徹底摧毀。"
這把槍,已經上膛了。