ChatGPT 和 Claude 會把一切工作趕盡殺絕嗎？

Question

a16z 合夥人 Joe Schmidt IV 指出大模型實驗室只會主導橫向任務，真正的 AI 應用機會藏在垂直場景與複雜工作流中。
（前情提要：Altman 收回「AI 毀滅人類工作」預言：我很高興自己錯了，真心的嗎？）
（背景補充：Google 領投 AI 路由平台 OpenRouter，估值 13 億美元一年成長 240%）

本文目錄

Toggle

黃磚路
奧茲國的其他地方
為什麼奧茲國的其他地方不會被巫師佔領
銷售領域案例——來自 11x 技術執行長的實用建議
- 專注於結果
- 在複雜度高的問題上發力
- 護欄不僅僅是為了防止壞事發生，這正是客戶付錢的原因
保險領域案例——來自 FurtherAI 執行長的實用建議
你如何判斷自己是否身處奧茲國的其他地方？
兩者都能（且將會）獲勝

創業者和潛在員工一直問我同一個問題：AI 應用層還有什麼值得建構的空間嗎？還是 OpenAI 和 Anthropic 會把一切都趕盡殺絕？

這個問題背後隱藏著一種特殊的「AI 焦慮症」。有些人已經得出結論，認為要避免成為永久的底層階級，唯一能持久立足的地方要麼是在大型實驗室內部，要麼是在機器人、硬科技等前沿領域——理論上任何「實驗室碰不到的東西」。

如果每款軟體都即將被吞噬，不論是被 Codex 或 Claude 直接取代工作，還是被未來的模型搞得你建構的一切都變得毫無必要，那就快逃吧！

聽著，我幾乎和所有人一樣都是 AI 至上主義者，但我認為他們只對了一半。實驗室確實正在侵蝕很大一部分的應用版圖。但「應用層」並不是一個單一且同質的機會。正確的思考框架是：你是在「綠野仙蹤」的黃磚路（Yellow Brick Road）上，還是身處奧茲國（Oz）的精靈世界其他地方？

黃磚路是我們對實驗室正在前行的道路的簡稱，他們在那裡投入了驚人的資源。實驗室最適合解決代碼生成、寫作或圖像創作等問題的原因，在於這些問題能隨著「模型原始能力」的提升而改善：投入在預訓練和後訓練上的每一美元，都能直接提升產品品質。

與此同時，奧茲國的其他地方則充滿了更複雜、通常是垂直領域的問題。這些問題並非只是給企業用戶一個具備標準工具和電腦操作權限的「通用型工具」那麼簡單。

其價值與其說來自底層模型的原始能力（雖然這依然重要！），不如說來自環繞其上的支撐架構（scaffolding），正是這些架構讓輸出在特定行業中變得值得信賴、合規且可投入實際運作。

我們正即時看到這種局面在上演，OpenAI 和 Anthropic 實際上正向市場傳達一個訊息：他們無法用一個通用的 AI 同事來解決所有問題。他們已經宣布了大規模的前線部署合資計劃，圍繞著為企業配置和客製化模型來打造一整家公司。如果你認為下一個模型的發布就能搞定一切，你絕對不會把數十億美元投入到這些項目中。

因此，如果你想靠開發 AI 應用發家致富——請避開黃磚路，到奧茲國的其他地方去開拓。以下是我們以及我們投資組合中的一些創業者所學到的、關於什麼才是行之有效的經驗。

黃磚路

如果你要創業，黃磚路是最顯而易見的一條路，但也是最危險的。拿一個高性能的模型，插上一些現成的連接器（比如 Google Drive、Slack、Salesforce、Notion、GitHub），然後在其上推出某種 Agent（智能體）編排層。簡直是魔法！

這裡的問題在於，這正是實驗室透過 Cowork 和 Codex 在做的事。顯然，他們擁有模型本身，這給了他們更好的利潤率、控制力，以及對任何下游廠商施加定價權的能力。

但或許最重要的是，他們還掌握了決定其產品能完美解決哪些問題的「架構選擇」。到目前為止，他們在「模型加工具調用（tool calls）」的模式上深思熟慮，而這正是黃磚路上那種水平式、低步驟工作所需要的。即便新創公司能在某種程度上超越 Codex 或 Claude Code，實驗室也擁有龐大的分銷管道和 AI 領域最強大的品牌光環。

如果你是一家 AI 應用公司，照搬這個套路，使用相同的連接器，底下既沒有子 Agent 也沒有深層配置，更沒有分銷渠道，那麼你很可能正走在一條通往無底洞的死路上。

奧茲國的其他地方

對新創公司來說，這並非全是末日。在黃磚路之外存在著巨大的機會，新創公司在那裡有著清晰的路徑去擁有自己的客戶並解決複雜的問題。

這些企業正在建構 Agent 的體驗，將模型交織在一個由工具、自動化和集成（換句話說：軟體）組成的複雜網絡中，這使得大多數此類新創公司在默認情況下都是垂直領域的。

他們可以專注於多步驟和多角色協同的工作，並針對特定角色和垂直領域的任務設立子 Agent（sub-agents），這是 Anthropic 和 OpenAI 用通用平台無法觸及的：跨系統收集上下文，然後路由給多個必須在不同階段進行審批的人員。

這通常涉及一個或多個遺留系統（legacy systems），傾向於需要確定性的結果（容不得半點模糊），且時常與某些高價值的商業成果直接掛鉤。

實驗室很清楚這些問題有多大價值：這正是為什麼他們正在建立自己的外包配置部門，以及為什麼會存在一整類面向高端市場的強化學習業務。

為什麼奧茲國的其他地方不會被巫師佔領

對於上述觀點，人們反駁會說，到目前為止，做空模型/實驗室的進步一直是一筆很不划算的賭注。他們很可能會繼續變得更強，並最終吞噬這些應用層企業所服務的市場。

實驗室當然會持續進步，但我認為奧茲國其他地方的企業隨著時間的推移，有幾種方式可以保護自己：

數據與學習飛輪： 你所內化的大多數東西都不在任何訓練集裡——未成文的行業規範、未記錄的標準，以及存在於從業者腦海中的群體智慧。這些在公開網站上都找不到。再多的訓練算力也無法替代身處這些知識實際存在的「工作流」之中。

這裡有兩個相互堆疊的飛輪：一個是跨客戶的飛輪（當你看到同一個問題的更多變體時，模式就會產生複利效應）；另一個是客戶內部的飛輪（特定決策背後的原因、未言明的例外情況，以及公司自身的經驗法則，這些只有透過與系統的真實互動才會浮出水面）。

一家讓其 Agent 跑過 100 次法律條款修訂（redlines）、1000 次保險核保週期或 10000 次 SDR 行銷活動的公司，已經內化了該問題的本質形態，這是新進入者第一次啟動一個全新 Agent 時所無法複製的。評估集（Eval sets）、標籤化輸出和邊緣情況分類法，可以複合成一個垂直領域特有的數據飛輪，從而為微調（fine-tuning）提供動力。

管理模型的變異性與複雜性： 實驗室內部已經在進行路由——針對不同的請求使用不同的模型級別，在底層進行集成（ensembles）。但他們無法做到的是「跨廠商路由」，或者針對特定的子任務去評估競爭對手的模型，又或者在最適合的細分環節使用開源的微調模型。「奧茲國其他地方」的公司會在整個模型市場中為每個子任務挑選最合適的模型。

每當新模型推出時，它還會承擔沒人想做的苦差事——在升級時重新跑評估、針對客戶的邊緣情況重新校準提示詞（prompts）、在不破壞生產環境的情況下進行部署。實驗室不會代表客戶做這些事；他們只會把下一個模型賣給你，然後叫你自行遷移。而奧茲國其他地方的公司則吸收了這種遷移成本。

成本優化： 把每個查詢都用最新的前沿巨型模型來跑，是走向負毛利的最快途徑。最優秀的應用層公司會在不同層級的模型之間進行路由——將前沿模型用於最困難的任務，中階模型用於大部分常規任務，並在特定環節採用更小的自訂或微調模型。

實驗室為底線定價：以 X 美元提供最低限度的可用智能。奧茲國其他地方的公司則相反——為工作流實際所需的特定智能級別，提供最低的美元成本。這只有在你精確了解每個子任務需要什麼級別時才有可能做到。

治理（Governance）： 成為客戶在該垂直領域運行 AI 的控制面板（control plane）具有巨大的價值——這裡是權限、審計、Agent 被允許做什麼以及 Agent 實際做了什麼的交匯處。

因為他們端到端地擁有了工具、工作流以及 Agent 觸及的數據，所以他們能夠提供確定性的結果。他們還是為最終買家吸收監管複雜性的實體——法律領域的規則、醫療領域的 HIPAA、金融領域的 SEC 和 FINRA、各州的保險法規等等。資訊長（CIO）希望有一個能在合同中明確聲明「他們正在為所提供的 Agent 處理合規問題」的合作夥伴。

所有這些都可以歸結為同一件事：專注。這可以是一個垂直領域（保險、法律、會計），也可以是一個深耕的職能（銷售、客戶支持、財務）。實驗室並非為此而生。他們必須無處不在、服務每個人，這也是他們最新修築黃磚路的原因。同樣的權衡也將他們擋在奧茲國的其他地方之外——你不可能同時無處不在，又同時在某件事上做到極致。兩者不可兼得。

銷售領域案例——來自 11x 技術執行長的實用建議

在實踐中你應該如何思考這個問題？以下是來自 11x 執行長 Prabhav Jain 的一些實用建議：

專注於結果

建立一家對實驗室具有免疫力的公司的戰術路徑，就是直接從客戶真正關心的「特定結果」開始。對我們來說，那就是幫助公司建立更多的銷售管道（pipeline）。

我們想端到端地擁有哪些真正能驅動管道的活動？將每項活動分解為任務。哪些任務需要 Agent 化，哪些不需要。當工作流包含許多步驟、輸入混亂、狀態難以解讀或存在現實世界的約束時，單憑一個更好的模型是無法幫你達成的。這項工作落到了傳統的軟體工程頭上。

例如，我們處理的任務包括：基於自訂信號的潛在客戶開發、數據富化、深度帳戶研究、CRM 上下文獲取、特定渠道的消息編寫、潛在客戶資格審查 Agent 以及郵件送達率系統。這些都不是你可以一蹴而就（one-shot）的任務，它們需要深厚的工程底蘊。任何真實工作流中大約有一半是非 Agent 化的，這部分完全沒有實驗室優勢。

在複雜度高的問題上發力

複雜的問題才是解鎖真正商業價值的所在。否則，你會發現自己只是建構了一個薄薄的外殼（thin wrapper）。

這裡有一個來自市場開拓（GTM）領域的例子，聽起來微不足道：如果某家公司已經是你的客戶，你就不應該去聯繫該公司的某個聯絡人。

但實際情況絕非如此簡單。如果是擁有數十家子公司的公司呢？如果 CRM 記錄只有母公司的網域怎麼辦？如果系統中一個過期的匹配欄位把一封陌生開發信（cold pitch）發給了現有客戶的營收長（CRO）怎麼辦？從這種混亂中理出頭緒，需要針對該問題的具體形態量身定制的專用 Agent，而不是一個通用型的副駕駛（copilot）。

護欄不僅僅是為了防止壞事發生，這正是客戶付錢的原因

護欄的作用被嚴重低估了。一個受監管的金融服務潛在客戶所要求的保障，與一個中型市場的 SaaS 客戶完全不同，這些保障會延伸到 Agent 被允許如何寫作、它可以聯繫誰、它可以觸及什麼數據，以及每項決策如何記錄存檔。

面對這種差異，一刀切的系統注定會崩潰。護欄必須根據使用場景來建構、根據客戶來配置，並進行持續審計。這就是為什麼我們擁有前線部署工程師（FDE）和技術部署策略師，他們需要針對每個客戶的需求進行調整。

保險領域案例——來自 FurtherAI 執行長的實用建議

銷售是一個例子。保險是另一個例子，它從不同的角度印證了同一個觀點。以下是 FurtherAI 執行長 Aman Gour 的看法：

「當我們開始在真正的保險業務中部署 AI 時，我們一直聽到一個特定的假設：模型才是智能所在，工作流只是圍繞著它的鷹架。

我們合作的保險公司越多，我們就越確信這種看法顛倒了因果。在保險業中，大量的智能其實存在於工作流本身。

兩家保險公司可以讓一份投保申請通過看起來相同的路徑：提交、審核、報價、承保。但路徑是最簡單的部分。區分這兩家保險公司的是其中的一切細節：哪些風險需要上報、哪些損失信號至關重要、當兩條業務傾向（appetite）規則衝突時哪一條勝出、何時需要人工簽字，以及最終決策如何記錄存檔。這些邏輯並不存在於某個乾淨利落的規則引擎中。它散落在 SOP、主管審查、核保理念以及多年的運營經驗中。

這就是為什麼我們一直在建構 Agent 化工作流（agentic workflows）。工作流帶工整的可重複性、可審計性和成本控制；Agent 處理變異性，並在常規路徑失效時進行修復；人類則保持在流程中（human-in-the-loop），負責涉及問責制的判斷。

久而久之，工作流不再只是一段腳本，而是開始成為保險公司的營運記憶（operating memory）。這是實驗室難以觸及的部分。這種理解只能來自於在生產環境中將該工作流運行成千上萬次。你第一天推出的工作流並不是護城河，隨著時間推移，生產環境使用所創造的閉環才是。」

你如何判斷自己是否身處奧茲國的其他地方？

工具與步驟測試（The tools-and-steps test）： 這項工作需要多少個步驟？你必須建構多複雜的工具來支持它？對比一下：一邊是跨 Google Drive 的水平式 AI 搜索（單一工具、單一步驟，且容錯率高）；另一邊則是對抗律所三年先例的多步驟法律條款修訂（橫跨多個工具的數十個步驟，輸出結果必須通過合夥人審查）。兩者看起來都像是「Agent 在工作」，但只有其中一個需要專注團隊花費數年時間去開發的那種深層軟體。
系統測試（The system test）： 你是在建構一個供客戶運行其工作的「系統」，還是建構一個搭載在他們已有系統之上的「工具」？系統端到端地擁有了工作流——數據捕獲、治理、已完成工作的記錄。相反，工具只是為客戶已經在運行的工作流增添智能。高 ACV（年度合同價值）通常是系統的一個信號，因為系統替代了實際的人力編制。問問自己：如果某個實驗室推出了據稱與你直接競爭的產品，客戶是否還需要你的工具？如果是，你建構的是系統。
對沖基金 / 損益表測試（The hedge fund / P&L test）： 實驗室的績效是根據基準測試（benchmarks）來評判的，而奧茲國其他地方的績效則是根據客戶的損益表（P&L）來評判的。你的客戶不在乎你的模型在基準測試上得分有多高——他們在乎的是你的 Agent 是否促成了交易、是否正確修訂了合同。最優秀的 Agent 企業需要像對沖基金一樣去執行——在以客戶損益表衡量的「超額收益（Alpha）」上獲勝。

兩者都能（且將會）獲勝

我們將在黃磚路上以及黃磚路之外看到巨大的贏家。模型公司將繼續獲勝，因為他們擁有模型本身，並且擁有了他們所設計的通用工具的分銷渠道。

奧茲國其他地方的公司如果能擁有工作系統（system of work），就能獲勝——也就是公司工作實際執行、以及由此產生的數據被捕獲的界面。隨著垂直領域中更複雜的工作流走向成熟，它們會複合成客戶所依賴的核心體驗。底層的模型是可替代的，但工作系統不可替代。

下一代的企業級軟體將在黃磚路之外誕生。

ChatGPT 和 Claude 會把一切工作趕盡殺絕嗎？

黃磚路

奧茲國的其他地方

為什麼奧茲國的其他地方不會被巫師佔領

銷售領域案例——來自 11x 技術執行長的實用建議

專注於結果

在複雜度高的問題上發力

護欄不僅僅是為了防止壞事發生，這正是客戶付錢的原因

保險領域案例——來自 FurtherAI 執行長的實用建議

你如何判斷自己是否身處奧茲國的其他地方？

兩者都能（且將會）獲勝

熱門話題

成長值抽獎贏金條

WTI原油失守90美元

股票交易挑戰最高贏17000U

美伊談判博弈

交易CFD送黃金

已置頂