AI 投資人的 2026 焦慮：當模型吞噬一切，創業公司的護城河還剩什麼？

Question

作者：Sarah Guo編譯：深潮 TechFlow深潮導讀：當大模型在所有榜單上都開始碾壓人類，投資人開始陷入一種絕望：除了 Anthropic 和英偉達，還有什麼值得投？這位硅谷頂級投資人用數據和案例說明，真正的護城河不在榜單上——它藏在那些無法被 benchmark 衡量的地方。2026 年中，投資者版本的 AI 精神錯亂是一種絕望：沒什麼值得投了，我們應該把所有錢投給 Anthropic 和英偉達然後回家。我從未有過這種感覺。我已經確信模型比我聰明好幾個子版本了，我很樂意以市場價買入 Anthropic 和英偉達，我所有最聰明的朋友都相當確信自我改進很快就會成功——但我仍然感受不到這種絕望。這種絕望並不愚蠢。邏輯是這樣的：如果模型在所有事情上都持續變好，那麼每家建立在它之上的公司都只是一層薄薄的包裝，等待被吸收，唯一能存活的價值就是算力和前沿權重。以軟體為例，這是絕望論者最倚重的案例。Devin 在 2024 年發布時只能解決標準軟體 benchmark 上 13%的任務，基本被忽視。一年半後，最好的 agent 能達到 80 多分，它們正在高盛和美國陸軍內部做真實工作。幾乎所有人都得出了同樣的錯誤教訓：模型吃掉了軟體工程。但當模型吞噬了軟體工程中最容易衡量的部分時，我們正在重新認識到許多團隊早就知道的事——工程一直抗拒衡量，最容易衡量的部分可能不是唯一重要的部分。MIT 的 Mert Demirer 及其合作者終於給出了數字：在超過 10 萬名開發者中，最新的編碼 agent 讓寫出的程式碼量提升了約 180%，而實際發布的程式碼量提升了約 30%。寫程式變便宜了。剩下的部分仍然要靠人，而且很重要。當然，淨影響仍然很驚人。benchmark 是你能衡量的東西，而你能衡量的東西就是你能針對它訓練的東西。因此，編碼 agent 最先成熟：編譯器是免費的驗證器，測試套件是免費的驗證器，當答案自己免費檢查自己時，你可以不斷對著檢查打磨直到你擊敗它。但透過測試從來沒有告訴你，這個改動對於一個有著三個未記錄模組存在理由、部署 pipeline 靠一個沒有人願意承認是自己寫的 cron job 勉強維持的十年老程式碼庫來說，是否是正確的。那種正確性無法從排行榜上讀出來，實際上也無法從任何東西上讀出來。你透過在現實世界中運行足夠長的時間來學習，才能發現這樣一個複雜系統是否有效，而更聰明的模型並不能讓世界運行得更快。沒有人對 Google 規模的東西做單元測試然後相信綠色的勾；你相信它是因為它經受住了多年的真實負載。這樣的正確性不僅是私有的，它還是那種資本無法崩塌的緩慢護城河。即使是樂觀主義者也承認時鐘無法跳過：Noam Brown，OpenAI 推理模型的先驅，最近寫道，評估一個 agent 在一年時間跨度上的唯一可靠方法可能就是......運行它一年。正如 Gabe Pereyra 所說，真正的自動化不只是模型變好。它是產品、模型、工作流程和公司一起移動，而這四個中有三個以組織的速度移動。移動的人是 benchmark 觸及不到的部分：讓一個懷疑的合夥人改變她處理事務的方式，在重建過程中保持團隊團結。這就是為什麼當我們招聘 CEO 時，處理人的能力至少和分析能力一樣重要，而更聰明的模型不會改變這個權重。反饋是模糊的，時間跨度是數年，信任屬於一個人。我知道的每家公司都讓所有工程師用上了前沿編碼模型，但沒有一家以接近那個速度改變其工程組織。採用花了一個季度，那是多麼神奇的 token 增長季度啊！但重建正在花費數年。可見的是正在離開的東西。有價值的工作在結構上是不可見的：任何你能放在排行榜上的東西，你都能針對它訓練，所以任何可衡量的東西都已經在走向商品化的路上。這個過程需要時間且永遠不會完全，但方向永遠不會逆轉。用我在 Rippling 的朋友 Matt MacInnis 的金錢術語來說：花在回答通用問題上的 token 幾乎一文不值，因為任何人的模型都能回答它，而花在對你公司資料進行推理的 token 價值要高得多，因為它做了你真正想要的事，而不僅僅是看似合理的事。可見的工作從兩個方向被吃掉。從下方，任務飽和：一旦一個工作可以被廉價檢查，買家就不再問是哪个模型做的，而開始問它花多少錢，工作就落到了那周最便宜的開源或蒸餾模型上。在它們能產生影響的任何地方，利潤率最終都很重要。从上方，實驗室正試圖讓模型吞噬自己的腳手架。檢索、在便宜和昂貴調用之間的路由、工具使用，甚至推理策略，所有曾經包裹模型的裝置都被拉進權重中，直到包裝器就是模型。這就是吸收前沿。利潤率壓力也反向削減：通用 agent 必須為任何事情做好準備，這很昂貴，而專注的應用可以調整一個工作流程直到它運行在一小部分 token 支出上，而且與出售這些 token 的實驗室不同，它保留了差價。所以，我們可以對任何類型的工作問兩件事。它的正確性是私有的且建立成本高昂嗎，那種只存在於某人資料內部的真相？它是被隔離的嗎，鎖在你無法進入的系統內？將這些與任務的飽和程度對比，你會得到一個 2x2 矩陣。具有公開答案的飽和工作是商品 token，開源模型擁有它。具有公開答案的前沿工作，編碼 benchmark 所在之處，是實驗室獲勝的地方，因為當評估是免費的，擁有它不算什麼。獎品在最後一個角落，不可訓練的那個：正確性只存在於私有領域的前沿工作。你可以在托管 AI 原生先驅的推理雲中看到它，絕大多數 token 是由定制模型生成的，而不是通用的開源模型。進入最後那個角落的牆高度各異。單個開發者的玩具程式庫是可移植且標準化的，所以攀登很短。銀行的生產系統兩者都不是，你不會因為在 SWE-Bench Verified 上聰明 2%就獲得 root 權限。能力吃掉了許多東西，但更好的模型不會讓私有的基本事實變成公開的。它不持有許可證，不簽署責任，也不擁有公司的文件，當答案錯誤時它不能成為被起訴的一方。智能不是這裡的瓶頸。許可是，責任也是。你可以想像一個比任何人都聰明得多的模型，它仍然必須被允許進門，仍然有人必須為它做的事署名。那扇門有一把鎖和一個門閂。鎖是環境：你只有在系統內部被信任之後，在安全審查、整合、你署名結果的合同之後，才能驗證 AI 是否做了有用的事情。門閂是用戶。現在美國大多數醫生每天都打開 OpenEvidence，沒有任何量的算力能買到這個。實驗室明天可以訓練一個完美的醫療模型，仍然無法進入醫生的習慣，或進入加州大學舊金山分校的決策流程，因為信任是緩慢建立的，基於關係，需要用戶的默許，而不是抹去他們的梯度下降。這也是工作。一個應用通過做不起眼的工作在不可訓練的角落贏得它的位置：安排公司的私有現實以便模型可以對其採取行動，給模型提供行動的工具，與客戶合作改變其員工的現實。一家帶來翻譯的公司很難被複製——而翻譯永遠不會結束。整合和維護持續的時間和關係一樣長，由將領域專業工程師和工具放在客戶旁邊的團隊贏得。舉個例子，在一家頂級白鞋律所，僅 M&A 業務每年就運行近千筆交易。出於保密原因和其他許多原因，你不能讓數百名助理各自下載客戶文件到桌面並要求通用 agent 翻閱它們，即使你能，你學到的也將是碎片，一次一個助理的修正，看不到整個交易如何流動。重要的信號存在於交易層面，而交易有一個形狀：對於 M&A 是保密協議、條款清單、盡職調查、購買協議、附屬文件、交割清單；對於 IP 訴訟，是動議、證據開示、現有技術、更多動議。每個業務領域都有自己的，律師和工具都不能跨領域互換。而律所實際解決的問題位於這一切之上的一個層次：並行運行每個業務領域，就像頂級合夥人同時運行數百個事項，同時引入新事項並培訓助理。轉型這樣一家公司不是一個你可以為其編寫評估的單一任務。它需要一個運營者去用數據分析法做，目標極其模糊，反饋不完整，時間跨度很長，在一個不會靜止的環境中。不幸的是，不可見的價值也很難銷售，原因與它難以商品化相同：公司無法從外部判斷 AI 是否會轉型其運營，就像 benchmark 無法判斷一樣。所以最強的企業停止試圖從外部證明它，而是進入內部，對結果定價。Sierra 在其 agent 解決客戶問題時收費，將問題踢給人類時不收費，所以價格成為評估，這只有在 Sierra 擁有"已解決"的定義時才有效。Cognition 的 Devin 在軟體中採取同樣的舉措，提供"性能保證"，這只有在你被信任進入的系統中才能為結果提供。即使是服務 token，每個人都喜歡稱之為純商品的層，也不像商品那樣運作。最好的 AI 原生公司將他們的服務集中在一兩個提供商（Baseten 或 Fireworks）上，因為每 token 成本按計劃商品化，而真實流量下的可靠性和對稀缺算力的保證存取則不會。你在哪裡服務是與你使用哪些模型不同的選擇。價格是推理中唯一像商品一樣運作的部分。經常提出的一個反對意見是，實驗室是你的供應商——為什麼它不會以低於成本的價格運行自己的第一方產品來榨乾你，或撤銷你的 API 訪問並自己佔領市場？這是絕望論的真實版本，它只有在模型層是單人遊戲時才有效。顯然不是——它看起來更像一場三個半方的死亡競賽，一群國際玩家落後六個月的訓練，發展聯盟規模是去年的 5 倍。客戶希望供應商之間有競爭，實驗室更想要市場份額而不是讓任何一個應用死掉。你可以在實驗室正面交鋒的市場中看到這一點。在消費者聊天中，最好的模型從未簡單地獲勝。ChatGPT 在多年真實競爭中保持領先，它現在失去的份額正在流向 Gemini，靠的是 Android 和搜尋的力量，而不是更好的模型。Anthropic，預測市場（和互聯網氛圍）目前評級為擁有最好模型的公司，在消費者聊天中幾乎不是一個因素，而是在企業和編碼中建立了自己的業務。如果更好的模型無法在最核心的應用中奪走競爭對手的用戶，它就不會通過整合方式穿過醫院的記錄或銀行的責任。公眾今天的選擇不僅僅基於編碼。如果前沿保持擁擠，其上層將是有價值的。如果工作無法從外部評分，內部的某人必須決定什麼甚至是好答案，而這個決定就是整個遊戲。足夠多的這些決定，寫下來，就成為一個 benchmark。Harvey 為法律發布了一個，Sierra 為語音 agent 發布了一個。你透過成為一個領域已經在使用的那個，贏得定義什麼對該領域意味着好的權利，這些公司通過真實採用的鬥爭贏得了這個權利。決定真金白銀的評估是私有的且因公司而異：這家公司，在這種事務上，將接受什麼作為好工作，它遠未完成，因為法律的深度使任何公共測試相形見絀。OpenEvidence 正在確定安全的臨床答案是什麼樣的。這些都不是真正的衡量，這是關於什麼是真的什麼是好的判斷，寫下來直到它成為其他所有人被衡量的標準，以及基礎實驗室無論多聰明都無法編寫它，因為那種地位只存在於該領域內部。這種權威傾向於落在它已經坐的地方。資深律師編寫法律 benchmark。定義安全臨床答案落在醫生身上。而已解決意味著任何已經擁有客戶的公司說它意味着什麼。吸收前沿不斷上升，因為我們不斷學習衡量更多的工作，可衡量的被吃掉。不可訓練的地面站在它上面任何人腳下縮小，所以你無法找到一個可防禦的點然後休息。你不斷向任何還不能被評分的東西邁進，你不斷重新承保。在一個狹窄的任務上，用你的私有資料和你自己的評估，你可以訓練到前沿並在重要的地方擊敗通用模型，那個專業模型成為護城河的一部分。另一方面，在通用模型上競爭是一場資本戰爭，你會輸給擁有最多算力的人，這是擁有淺層存取和可見任務的公司的陷阱。它承諾在通用任務範圍內超越前沿訓練以求生存的那一天，贏家似乎最由數據中心規模決定，結局通常不是獨立冠軍而是賣給算力豐富的人。所有這些都是防禦。更難的是進攻，選擇首先構建什麼。這就是我花一年時間尋找的，我可能找到三次。模型在這裡沒有幫助。它會做你指向的任何事情，但不能告訴你什麼值得指向，你無法 benchmark 那個，所以你無法訓練它。這也是現有企業不會拿走一切的原因：他們保持他們擁有的地盤，下個東西來自在我們其餘人之前發現用途的人。也許意圖是比算力更稀缺的投入。絕望論對了一半。薄包裝層確實正在被吸收，今天看起來像公司的很多東西都是薄包裝。它對剩下什麼是錯的。機制是清楚的；目的地不是。我會押注的是方向：智能不斷變便宜，價值不斷滑向模型無法到達的少數地方。不可訓練的是有歷史的價值。所以進入一個，做不起眼的翻譯，開始寫下那裡什麼意味着好，因為某人會去做。今年被引用最多的 benchmark 分數是一張即將變得一文不值的領土地圖，以及一個關於誰即將失去說什麼算作好的權利的通知。

AI 投資人的 2026 焦慮：當模型吞噬一切，創業公司的護城河還剩什麼？

熱門話題

我的Gate交易時刻

美國5月CPI創三年新高

預測世界盃墨西哥VS南非

美伊衝突升級

Gate上線港股交易

已置頂