AI 投資人的 2026 焦慮:當模型吞噬一切,創業公司的護城河還剩什麼?

作者:Sarah Guo

編譯:深潮 TechFlow

深潮導讀:當大模型在所有榜單上都開始碾壓人類,投資人開始陷入一種絕望:除了 Anthropic 和英偉達,還有什麼值得投?這位硅谷頂級投資人用數據和案例說明,真正的護城河不在榜單上——它藏在那些無法被 benchmark 衡量的地方。

2026 年中,投資者版本的 AI 精神錯亂是一種絕望:沒什麼值得投了,我們應該把所有錢投給 Anthropic 和英偉達然後回家。

我從未有過這種感覺。我已經確信模型比我聰明好幾個子版本了,我很樂意以市場價買入 Anthropic 和英偉達,我所有最聰明的朋友都相當確信自我改進很快就會成功——但我仍然感受不到這種絕望。

這種絕望並不愚蠢。邏輯是這樣的:如果模型在所有事情上都持續變好,那麼每家建立在它之上的公司都只是一層薄薄的包裝,等待被吸收,唯一能存活的價值就是算力和前沿權重。

以軟體為例,這是絕望論者最倚重的案例。Devin 在 2024 年發布時只能解決標準軟體 benchmark 上 13%的任務,基本被忽視。一年半後,最好的 agent 能達到 80 多分,它們正在高盛和美國陸軍內部做真實工作。幾乎所有人都得出了同樣的錯誤教訓:模型吃掉了軟體工程。但當模型吞噬了軟體工程中最容易衡量的部分時,我們正在重新認識到許多團隊早就知道的事——工程一直抗拒衡量,最容易衡量的部分可能不是唯一重要的部分。

MIT 的 Mert Demirer 及其合作者終於給出了數字:在超過 10 萬名開發者中,最新的編碼 agent 讓寫出的程式碼量提升了約 180%,而實際發布的程式碼量提升了約 30%。寫程式變便宜了。剩下的部分仍然要靠人,而且很重要。當然,淨影響仍然很驚人。

benchmark 是你能衡量的東西,而你能衡量的東西就是你能針對它訓練的東西。因此,編碼 agent 最先成熟:編譯器是免費的驗證器,測試套件是免費的驗證器,當答案自己免費檢查自己時,你可以不斷對著檢查打磨直到你擊敗它。但透過測試從來沒有告訴你,這個改動對於一個有著三個未記錄模組存在理由、部署 pipeline 靠一個沒有人願意承認是自己寫的 cron job 勉強維持的十年老程式碼庫來說,是否是正確的。

那種正確性無法從排行榜上讀出來,實際上也無法從任何東西上讀出來。你透過在現實世界中運行足夠長的時間來學習,才能發現這樣一個複雜系統是否有效,而更聰明的模型並不能讓世界運行得更快。沒有人對 Google 規模的東西做單元測試然後相信綠色的勾;你相信它是因為它經受住了多年的真實負載。這樣的正確性不僅是私有的,它還是那種資本無法崩塌的緩慢護城河。即使是樂觀主義者也承認時鐘無法跳過:Noam Brown,OpenAI 推理模型的先驅,最近寫道,評估一個 agent 在一年時間跨度上的唯一可靠方法可能就是......運行它一年。

正如 Gabe Pereyra 所說,真正的自動化不只是模型變好。它是產品、模型、工作流程和公司一起移動,而這四個中有三個以組織的速度移動。

移動的人是 benchmark 觸及不到的部分:讓一個懷疑的合夥人改變她處理事務的方式,在重建過程中保持團隊團結。這就是為什麼當我們招聘 CEO 時,處理人的能力至少和分析能力一樣重要,而更聰明的模型不會改變這個權重。反饋是模糊的,時間跨度是數年,信任屬於一個人。我知道的每家公司都讓所有工程師用上了前沿編碼模型,但沒有一家以接近那個速度改變其工程組織。採用花了一個季度,那是多麼神奇的 token 增長季度啊!但重建正在花費數年。

可見的是正在離開的東西。有價值的工作在結構上是不可見的:任何你能放在排行榜上的東西,你都能針對它訓練,所以任何可衡量的東西都已經在走向商品化的路上。這個過程需要時間且永遠不會完全,但方向永遠不會逆轉。用我在 Rippling 的朋友 Matt MacInnis 的金錢術語來說:花在回答通用問題上的 token 幾乎一文不值,因為任何人的模型都能回答它,而花在對你公司資料進行推理的 token 價值要高得多,因為它做了你真正想要的事,而不僅僅是看似合理的事。

可見的工作從兩個方向被吃掉。從下方,任務飽和:一旦一個工作可以被廉價檢查,買家就不再問是哪个模型做的,而開始問它花多少錢,工作就落到了那周最便宜的開源或蒸餾模型上。在它們能產生影響的任何地方,利潤率最終都很重要。从上方,實驗室正試圖讓模型吞噬自己的腳手架。檢索、在便宜和昂貴調用之間的路由、工具使用,甚至推理策略,所有曾經包裹模型的裝置都被拉進權重中,直到包裝器就是模型。這就是吸收前沿。利潤率壓力也反向削減:通用 agent 必須為任何事情做好準備,這很昂貴,而專注的應用可以調整一個工作流程直到它運行在一小部分 token 支出上,而且與出售這些 token 的實驗室不同,它保留了差價。

所以,我們可以對任何類型的工作問兩件事。它的正確性是私有的且建立成本高昂嗎,那種只存在於某人資料內部的真相?它是被隔離的嗎,鎖在你無法進入的系統內?將這些與任務的飽和程度對比,你會得到一個 2x2 矩陣。具有公開答案的飽和工作是商品 token,開源模型擁有它。具有公開答案的前沿工作,編碼 benchmark 所在之處,是實驗室獲勝的地方,因為當評估是免費的,擁有它不算什麼。獎品在最後一個角落,不可訓練的那個:正確性只存在於私有領域的前沿工作。你可以在托管 AI 原生先驅的推理雲中看到它,絕大多數 token 是由定制模型生成的,而不是通用的開源模型。

進入最後那個角落的牆高度各異。單個開發者的玩具程式庫是可移植且標準化的,所以攀登很短。銀行的生產系統兩者都不是,你不會因為在 SWE-Bench Verified 上聰明 2%就獲得 root 權限。

能力吃掉了許多東西,但更好的模型不會讓私有的基本事實變成公開的。它不持有許可證,不簽署責任,也不擁有公司的文件,當答案錯誤時它不能成為被起訴的一方。智能不是這裡的瓶頸。許可是,責任也是。你可以想像一個比任何人都聰明得多的模型,它仍然必須被允許進門,仍然有人必須為它做的事署名。

那扇門有一把鎖和一個門閂。鎖是環境:你只有在系統內部被信任之後,在安全審查、整合、你署名結果的合同之後,才能驗證 AI 是否做了有用的事情。門閂是用戶。現在美國大多數醫生每天都打開 OpenEvidence,沒有任何量的算力能買到這個。實驗室明天可以訓練一個完美的醫療模型,仍然無法進入醫生的習慣,或進入加州大學舊金山分校的決策流程,因為信任是緩慢建立的,基於關係,需要用戶的默許,而不是抹去他們的梯度下降。

這也是工作。一個應用通過做不起眼的工作在不可訓練的角落贏得它的位置:安排公司的私有現實以便模型可以對其採取行動,給模型提供行動的工具,與客戶合作改變其員工的現實。一家帶來翻譯的公司很難被複製——而翻譯永遠不會結束。整合和維護持續的時間和關係一樣長,由將領域專業工程師和工具放在客戶旁邊的團隊贏得。

舉個例子,在一家頂級白鞋律所,僅 M&A 業務每年就運行近千筆交易。出於保密原因和其他許多原因,你不能讓數百名助理各自下載客戶文件到桌面並要求通用 agent 翻閱它們,即使你能,你學到的也將是碎片,一次一個助理的修正,看不到整個交易如何流動。重要的信號存在於交易層面,而交易有一個形狀:對於 M&A 是保密協議、條款清單、盡職調查、購買協議、附屬文件、交割清單;對於 IP 訴訟,是動議、證據開示、現有技術、更多動議。每個業務領域都有自己的,律師和工具都不能跨領域互換。而律所實際解決的問題位於這一切之上的一個層次:並行運行每個業務領域,就像頂級合夥人同時運行數百個事項,同時引入新事項並培訓助理。轉型這樣一家公司不是一個你可以為其編寫評估的單一任務。它需要一個運營者去用數據分析法做,目標極其模糊,反饋不完整,時間跨度很長,在一個不會靜止的環境中。

不幸的是,不可見的價值也很難銷售,原因與它難以商品化相同:公司無法從外部判斷 AI 是否會轉型其運營,就像 benchmark 無法判斷一樣。所以最強的企業停止試圖從外部證明它,而是進入內部,對結果定價。Sierra 在其 agent 解決客戶問題時收費,將問題踢給人類時不收費,所以價格成為評估,這只有在 Sierra 擁有"已解決"的定義時才有效。Cognition 的 Devin 在軟體中採取同樣的舉措,提供"性能保證",這只有在你被信任進入的系統中才能為結果提供。

即使是服務 token,每個人都喜歡稱之為純商品的層,也不像商品那樣運作。最好的 AI 原生公司將他們的服務集中在一兩個提供商(Baseten 或 Fireworks)上,因為每 token 成本按計劃商品化,而真實流量下的可靠性和對稀缺算力的保證存取則不會。你在哪裡服務是與你使用哪些模型不同的選擇。價格是推理中唯一像商品一樣運作的部分。

經常提出的一個反對意見是,實驗室是你的供應商——為什麼它不會以低於成本的價格運行自己的第一方產品來榨乾你,或撤銷你的 API 訪問並自己佔領市場?這是絕望論的真實版本,它只有在模型層是單人遊戲時才有效。顯然不是——它看起來更像一場三個半方的死亡競賽,一群國際玩家落後六個月的訓練,發展聯盟規模是去年的 5 倍。客戶希望供應商之間有競爭,實驗室更想要市場份額而不是讓任何一個應用死掉。

你可以在實驗室正面交鋒的市場中看到這一點。在消費者聊天中,最好的模型從未簡單地獲勝。ChatGPT 在多年真實競爭中保持領先,它現在失去的份額正在流向 Gemini,靠的是 Android 和搜尋的力量,而不是更好的模型。Anthropic,預測市場(和互聯網氛圍)目前評級為擁有最好模型的公司,在消費者聊天中幾乎不是一個因素,而是在企業和編碼中建立了自己的業務。如果更好的模型無法在最核心的應用中奪走競爭對手的用戶,它就不會通過整合方式穿過醫院的記錄或銀行的責任。公眾今天的選擇不僅僅基於編碼。如果前沿保持擁擠,其上層將是有價值的。

如果工作無法從外部評分,內部的某人必須決定什麼甚至是好答案,而這個決定就是整個遊戲。足夠多的這些決定,寫下來,就成為一個 benchmark。Harvey 為法律發布了一個,Sierra 為語音 agent 發布了一個。你透過成為一個領域已經在使用的那個,贏得定義什麼對該領域意味着好的權利,這些公司通過真實採用的鬥爭贏得了這個權利。

決定真金白銀的評估是私有的且因公司而異:這家公司,在這種事務上,將接受什麼作為好工作,它遠未完成,因為法律的深度使任何公共測試相形見絀。OpenEvidence 正在確定安全的臨床答案是什麼樣的。這些都不是真正的衡量,這是關於什麼是真的什麼是好的判斷,寫下來直到它成為其他所有人被衡量的標準,以及基礎實驗室無論多聰明都無法編寫它,因為那種地位只存在於該領域內部。這種權威傾向於落在它已經坐的地方。資深律師編寫法律 benchmark。定義安全臨床答案落在醫生身上。而已解決意味著任何已經擁有客戶的公司說它意味着什麼。

吸收前沿不斷上升,因為我們不斷學習衡量更多的工作,可衡量的被吃掉。不可訓練的地面站在它上面任何人腳下縮小,所以你無法找到一個可防禦的點然後休息。你不斷向任何還不能被評分的東西邁進,你不斷重新承保。在一個狹窄的任務上,用你的私有資料和你自己的評估,你可以訓練到前沿並在重要的地方擊敗通用模型,那個專業模型成為護城河的一部分。另一方面,在通用模型上競爭是一場資本戰爭,你會輸給擁有最多算力的人,這是擁有淺層存取和可見任務的公司的陷阱。它承諾在通用任務範圍內超越前沿訓練以求生存的那一天,贏家似乎最由數據中心規模決定,結局通常不是獨立冠軍而是賣給算力豐富的人。

所有這些都是防禦。更難的是進攻,選擇首先構建什麼。這就是我花一年時間尋找的,我可能找到三次。模型在這裡沒有幫助。它會做你指向的任何事情,但不能告訴你什麼值得指向,你無法 benchmark 那個,所以你無法訓練它。這也是現有企業不會拿走一切的原因:他們保持他們擁有的地盤,下個東西來自在我們其餘人之前發現用途的人。也許意圖是比算力更稀缺的投入。

絕望論對了一半。薄包裝層確實正在被吸收,今天看起來像公司的很多東西都是薄包裝。它對剩下什麼是錯的。機制是清楚的;目的地不是。我會押注的是方向:智能不斷變便宜,價值不斷滑向模型無法到達的少數地方。不可訓練的是有歷史的價值。所以進入一個,做不起眼的翻譯,開始寫下那裡什麼意味着好,因為某人會去做。今年被引用最多的 benchmark 分數是一張即將變得一文不值的領土地圖,以及一個關於誰即將失去說什麼算作好的權利的通知。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆