ChatGPT 和 Claude 会把一切工作赶尽杀绝吗？

Question

a16z 合夥人 Joe Schmidt IV 指出大模型实验室只会主導橫向任務，真正的 AI 应用机会藏在垂直场景与複雜工作流中。
（前情提要：Altman 收回「AI 毀滅人類工作」预言：我很高興自己错了，真心的嗎？）
（背景補充：Google 领投 AI 路由平台 OpenRouter，估值 13 亿美元一年成长 240%）

本文目錄

Toggle

黄磚路
奧茲国的其他地方
为什麼奧茲国的其他地方不会被巫師佔领
销售领域案例——来自 11x 技術執行长的实用建议
- 專注於結果
- 在複雜度高的问題上发力
- 護欄不僅僅是为了防止壞事发生，这正是客戶付钱的原因
保险领域案例——来自 FurtherAI 執行长的实用建议
你如何判斷自己是否身處奧茲国的其他地方？
两者都能（且將会）獲勝

創业者和潛在員工一直问我同一个问題：AI 应用層还有什麼值得建構的空间嗎？还是 OpenAI 和 Anthropic 会把一切都趕盡殺絕？

这个问題背后隐藏著一種特殊的「AI 焦慮症」。有些人已经得出結論，认为要避免成为永久的底層階級，唯一能持久立足的地方要麼是在大型实验室內部，要麼是在机器人、硬科技等前沿领域——理論上任何「实验室碰不到的东西」。

如果每款软體都即將被吞噬，不論是被 Codex 或 Claude 直接取代工作，还是被未来的模型搞得你建構的一切都變得毫无必要，那就快逃吧！

聽著，我幾乎和所有人一樣都是 AI 至上主義者，但我认为他們只对了一半。实验室確实正在侵蝕很大一部分的应用版圖。但「应用層」並不是一个單一且同质的机会。正確的思考框架是：你是在「綠野仙蹤」的黄磚路（Yellow Brick Road）上，还是身處奧茲国（Oz）的精靈世界其他地方？

黄磚路是我們对实验室正在前行的道路的簡稱，他們在那裡投入了驚人的资源。实验室最适合解決代碼生成、寫作或圖像創作等问題的原因，在於这些问題能随著「模型原始能力」的提升而改善：投入在预訓練和后訓練上的每一美元，都能直接提升产品品质。

与此同时，奧茲国的其他地方則充滿了更複雜、通常是垂直领域的问題。这些问題並非只是給企业用戶一个具備標準工具和电腦操作權限的「通用型工具」那麼簡單。

其价值与其说来自底層模型的原始能力（雖然这依然重要！），不如说来自環繞其上的支撐架構（scaffolding），正是这些架構让输出在特定行业中變得值得信賴、合規且可投入实际运作。

我們正即时看到这種局面在上演，OpenAI 和 Anthropic 实际上正向市场傳达一个訊息：他們无法用一个通用的 AI 同事来解決所有问題。他們已经宣布了大規模的前線部署合资计劃，圍繞著为企业配置和客製化模型来打造一整家公司。如果你认为下一个模型的发布就能搞定一切，你絕对不会把數十亿美元投入到这些項目中。

因此，如果你想靠开发 AI 应用发家致富——请避开黄磚路，到奧茲国的其他地方去开拓。以下是我們以及我們投资組合中的一些創业者所学到的、关於什麼才是行之有效的经验。

黄磚路

如果你要創业，黄磚路是最顯而易见的一條路，但也是最危险的。拿一个高性能的模型，插上一些现成的连接器（比如 Google Drive、Slack、Salesforce、Notion、GitHub），然后在其上推出某種 Agent（智能體）編排層。簡直是魔法！

这裡的问題在於，这正是实验室透过 Cowork 和 Codex 在做的事。顯然，他們擁有模型本身，这給了他們更好的利潤率、控制力，以及对任何下游廠商施加定价權的能力。

但或許最重要的是，他們还掌握了決定其产品能完美解決哪些问題的「架構选擇」。到目前为止，他們在「模型加工具调用（tool calls）」的模式上深思熟慮，而这正是黄磚路上那種水平式、低步骤工作所需要的。即便新創公司能在某種程度上超越 Codex 或 Claude Code，实验室也擁有龐大的分销管道和 AI 领域最強大的品牌光環。

如果你是一家 AI 应用公司，照搬这个套路，使用相同的连接器，底下既沒有子 Agent 也沒有深層配置，更沒有分销渠道，那麼你很可能正走在一條通往无底洞的死路上。

奧茲国的其他地方

对新創公司来说，这並非全是末日。在黄磚路之外存在著巨大的机会，新創公司在那裡有著清晰的路徑去擁有自己的客戶並解決複雜的问題。

这些企业正在建構 Agent 的體验，將模型交织在一个由工具、自动化和集成（換句話说：软體）組成的複雜網絡中，这使得大多數此類新創公司在默认情況下都是垂直领域的。

他們可以專注於多步骤和多角色協同的工作，並針对特定角色和垂直领域的任務设立子 Agent（sub-agents），这是 Anthropic 和 OpenAI 用通用平台无法觸及的：跨系统收集上下文，然后路由給多个必須在不同階段进行審批的人員。

这通常涉及一个或多个遺留系统（legacy systems），傾向於需要確定性的結果（容不得半点模糊），且时常与某些高价值的商业成果直接掛鉤。

实验室很清楚这些问題有多大价值：这正是为什麼他們正在建立自己的外包配置部门，以及为什麼会存在一整類面向高端市场的強化学習业務。

为什麼奧茲国的其他地方不会被巫師佔领

对於上述觀点，人們反駁会说，到目前为止，做空模型/实验室的进步一直是一筆很不划算的賭注。他們很可能会继续變得更強，並最終吞噬这些应用層企业所服務的市场。

实验室当然会持续进步，但我认为奧茲国其他地方的企业随著时间的推移，有幾種方式可以保護自己：

數據与学習飞輪： 你所內化的大多數东西都不在任何訓練集裡——未成文的行业規範、未記錄的標準，以及存在於从业者腦海中的群體智慧。这些在公开網站上都找不到。再多的訓練算力也无法替代身處这些知识实际存在的「工作流」之中。

这裡有两个相互堆疊的飞輪：一个是跨客戶的飞輪（当你看到同一个问題的更多變體时，模式就会产生複利效应）；另一个是客戶內部的飞輪（特定決策背后的原因、未言明的例外情況，以及公司自身的经验法則，这些只有透过与系统的真实互动才会浮出水面）。

一家让其 Agent 跑过 100 次法律條款修訂（redlines）、1000 次保险核保週期或 10000 次 SDR 行销活动的公司，已经內化了該问題的本质形態，这是新进入者第一次啟动一个全新 Agent 时所无法複製的。評估集（Eval sets）、標籤化输出和边緣情況分類法，可以複合成一个垂直领域特有的數據飞輪，从而为微调（fine-tuning）提供动力。

管理模型的變異性与複雜性： 实验室內部已经在进行路由——針对不同的请求使用不同的模型級別，在底層进行集成（ensembles）。但他們无法做到的是「跨廠商路由」，或者針对特定的子任務去評估競爭对手的模型，又或者在最适合的細分環節使用开源的微调模型。「奧茲国其他地方」的公司会在整个模型市场中为每个子任務挑选最合适的模型。

每当新模型推出时，它还会承擔沒人想做的苦差事——在升級时重新跑評估、針对客戶的边緣情況重新校準提示詞（prompts）、在不破壞生产環境的情況下进行部署。实验室不会代表客戶做这些事；他們只会把下一个模型卖給你，然后叫你自行迁移。而奧茲国其他地方的公司則吸收了这種迁移成本。

成本優化： 把每个查詢都用最新的前沿巨型模型来跑，是走向负毛利的最快途徑。最優秀的应用層公司会在不同層級的模型之间进行路由——將前沿模型用於最困难的任務，中階模型用於大部分常規任務，並在特定環節採用更小的自訂或微调模型。

实验室为底線定价：以 X 美元提供最低限度的可用智能。奧茲国其他地方的公司則相反——为工作流实际所需的特定智能級別，提供最低的美元成本。这只有在你精確了解每个子任務需要什麼級別时才有可能做到。

治理（Governance）： 成为客戶在該垂直领域运行 AI 的控制面板（control plane）具有巨大的价值——这裡是權限、審计、Agent 被允許做什麼以及 Agent 实际做了什麼的交匯處。

因为他們端到端地擁有了工具、工作流以及 Agent 觸及的數據，所以他們能夠提供確定性的結果。他們还是为最終买家吸收監管複雜性的实體——法律领域的規則、醫療领域的 HIPAA、金融领域的 SEC 和 FINRA、各州的保险法規等等。资訊长（CIO）希望有一个能在合同中明確聲明「他們正在为所提供的 Agent 處理合規问題」的合作夥伴。

所有这些都可以歸結为同一件事：專注。这可以是一个垂直领域（保险、法律、会计），也可以是一个深耕的職能（销售、客戶支持、财務）。实验室並非为此而生。他們必須无處不在、服務每个人，这也是他們最新修築黄磚路的原因。同樣的權衡也將他們擋在奧茲国的其他地方之外——你不可能同时无處不在，又同时在某件事上做到極致。两者不可兼得。

销售领域案例——来自 11x 技術執行长的实用建议

在实踐中你应該如何思考这个问題？以下是来自 11x 執行长 Prabhav Jain 的一些实用建议：

專注於結果

建立一家对实验室具有免疫力的公司的戰術路徑，就是直接从客戶真正关心的「特定結果」开始。对我們来说，那就是幫助公司建立更多的销售管道（pipeline）。

我們想端到端地擁有哪些真正能驅动管道的活动？將每項活动分解为任務。哪些任務需要 Agent 化，哪些不需要。当工作流包含許多步骤、输入混亂、狀態难以解读或存在现实世界的约束时，單憑一个更好的模型是无法幫你达成的。这項工作落到了傳统的软體工程头上。

例如，我們處理的任務包括：基於自訂信號的潛在客戶开发、數據富化、深度帳戶研究、CRM 上下文獲取、特定渠道的消息編寫、潛在客戶资格審查 Agent 以及郵件送达率系统。这些都不是你可以一蹴而就（one-shot）的任務，它們需要深厚的工程底蘊。任何真实工作流中大约有一半是非 Agent 化的，这部分完全沒有实验室優勢。

在複雜度高的问題上发力

複雜的问題才是解锁真正商业价值的所在。否則，你会发现自己只是建構了一个薄薄的外殼（thin wrapper）。

这裡有一个来自市场开拓（GTM）领域的例子，聽起来微不足道：如果某家公司已经是你的客戶，你就不应該去聯繫該公司的某个聯絡人。

但实际情況絕非如此簡單。如果是擁有數十家子公司的公司呢？如果 CRM 記錄只有母公司的網域怎麼辦？如果系统中一个过期的匹配欄位把一封陌生开发信（cold pitch）发給了现有客戶的營收长（CRO）怎麼辦？从这種混亂中理出头緒，需要針对該问題的具體形態量身定制的專用 Agent，而不是一个通用型的副駕駛（copilot）。

護欄不僅僅是为了防止壞事发生，这正是客戶付钱的原因

護欄的作用被嚴重低估了。一个受監管的金融服務潛在客戶所要求的保障，与一个中型市场的 SaaS 客戶完全不同，这些保障会延伸到 Agent 被允許如何寫作、它可以聯繫誰、它可以觸及什麼數據，以及每項決策如何記錄存檔。

面对这種差異，一刀切的系统注定会崩潰。護欄必須根據使用场景来建構、根據客戶来配置，並进行持续審计。这就是为什麼我們擁有前線部署工程師（FDE）和技術部署策略師，他們需要針对每个客戶的需求进行调整。

保险领域案例——来自 FurtherAI 執行长的实用建议

销售是一个例子。保险是另一个例子，它从不同的角度印证了同一个觀点。以下是 FurtherAI 執行长 Aman Gour 的看法：

「当我們开始在真正的保险业務中部署 AI 时，我們一直聽到一个特定的假设：模型才是智能所在，工作流只是圍繞著它的鷹架。

我們合作的保险公司越多，我們就越確信这種看法顛倒了因果。在保险业中，大量的智能其实存在於工作流本身。

两家保险公司可以让一份投保申请通过看起来相同的路徑：提交、審核、报价、承保。但路徑是最簡單的部分。区分这两家保险的是其中的一切細節：哪些风险需要上报、哪些損失信號至关重要、当两條业務傾向（appetite）規則衝突时哪一條勝出、何时需要人工簽字，以及最終決策如何記錄存檔。这些逻辑並不存在於某个乾淨利落的規則引擎中。它散落在 SOP、主管審查、核保理念以及多年的运營经验中。

这就是为什麼我們一直在建構 Agent 化工作流（agentic workflows）。工作流帶工整的可重複性、可審计性和成本控制；Agent 處理變異性，並在常規路徑失效时进行修復；人類則保持在流程中（human-in-the-loop），负责涉及问责制的判斷。

久而久之，工作流不再只是一段腳本，而是开始成为保险公司的營运記憶（operating memory）。这是实验室难以觸及的部分。这種理解只能来自於在生产環境中將該工作流运行成千上万次。你第一天推出的工作流並不是護城河，随著时间推移，生产環境使用所創造的閉環才是。」

你如何判斷自己是否身處奧茲国的其他地方？

工具与步骤測試（The tools-and-steps test）： 这項工作需要多少个步骤？你必須建構多複雜的工具来支持它？对比一下：一边是跨 Google Drive 的水平式 AI 搜索（單一工具、單一步骤，且容错率高）；另一边則是对抗律所三年先例的多步骤法律條款修訂（橫跨多个工具的數十个步骤，输出結果必須通过合夥人審查）。两者看起来都像是「Agent 在工作」，但只有其中一个需要專注團队花费數年时间去开发的那種深層软體。
系统測試（The system test）： 你是在建構一个供客戶运行其工作的「系统」，还是建構一个搭載在他們已有系统之上的「工具」？系统端到端地擁有了工作流——數據捕獲、治理、已完成工作的記錄。相反，工具只是为客戶已经在运行的工作流增添智能。高 ACV（年度合同价值）通常是系统的一个信號，因为系统替代了实际的人力編制。问问自己：如果某个实验室推出了據稱与你直接競爭的产品，客戶是否还需要你的工具？如果是，你建構的是系统。
对沖基金 / 損益表測試（The hedge fund / P&L test）： 实验室的績效是根據基準測試（benchmarks）来評判的，而奧茲国其他地方的績效則是根據客戶的損益表（P&L）来評判的。你的客戶不在乎你的模型在基準測試上得分有多高——他們在乎的是你的 Agent 是否促成了交易、是否正確修訂了合同。最優秀的 Agent 企业需要像对沖基金一樣去執行——在以客戶損益表衡量的「超額收益（Alpha）」上獲勝。

两者都能（且將会）獲勝

我們將在黄磚路上以及黄磚路之外看到巨大的贏家。模型公司將继续獲勝，因为他們擁有模型本身，並且擁有了他們所设计的通用工具的分销渠道。

奧茲国其他地方的公司如果能擁有工作系统（system of work），就能獲勝——也就是公司工作实际執行、以及由此产生的數據被捕獲的界面。随著垂直领域中更複雜的工作流走向成熟，它們会複合成客戶所依賴的核心體验。底層的模型是可替代的，但工作系统不可替代。

下一代的企业級软體將在黄磚路之外誕生。

查看原文

ChatGPT 和 Claude 会把一切工作赶尽杀绝吗？

黄磚路

奧茲国的其他地方

为什麼奧茲国的其他地方不会被巫師佔领

销售领域案例——来自 11x 技術執行长的实用建议

專注於結果

在複雜度高的问題上发力

護欄不僅僅是为了防止壞事发生，这正是客戶付钱的原因

保险领域案例——来自 FurtherAI 執行长的实用建议

你如何判斷自己是否身處奧茲国的其他地方？

两者都能（且將会）獲勝

热门话题

成长值抽奖赢金条

WTI原油失守90美元

股票交易挑战最高赢17000U

美伊谈判博弈

交易CFD送黄金

置顶