📢 Gate 广场认证创作者招募中,入驻瓜分每月 $20,000 创作大奖!
📌 参与方式
站内创作者: 成功申请“创作者认证徽章”即可自动参与。
新入驻创作者: 需填写入驻表单申请 👉️ https://www.gate.com/questionnaire/7698
🎁 创作者福利
1️⃣ 首帖见面礼: 新入驻/回归创作者发首帖,即得 $50U 奖励!
2️⃣ 周度发帖奖: 完成周发帖任务,轻松瓜分 $10,000 奖池!
3️⃣ 月度创作奖: 赛道更多样,完成月度任务瓜分 $1,600 GT 奖池!
4️⃣ 专属推广任务:进入专属创作者社群,享专属推广任务和节日礼包!
让您的优质内容被更多人看到,携手共建高质量创作者社区!
活动细节:https://www.gate.com/announcements/article/51536
Anthropic 研究:领域专业比写程序能力,更能决定 Claude Code 生成效果
Anthropic 分析约 40 万场 Claude Code 互动 session、约 23.5 万名用戶后发现:決定 AI coding 成敗的关鍵,不是会不会寫程式,而是对所解決问題的领域理解深度。
(前情提要:Anthropic 发布 Claude Code 经濟研究!AI 代理省钱潛力达 40 亿)
(背景補充:Anthropic 上線 AI 衝擊儀錶板:输入職业,秒查你的工作被 AI 吃掉多少?)
本文目錄
Toggle
Anthropic 在最新研究报告中,分析了约 23.5 万名用戶的樣本后发现,真正決定 AI 效果成敗的,是那个「下指令的人」有多懂自己在解決什麼问題。
一个会计師,如何成为 Claude 眼中的「專家」
Anthropic 这份研究的樣本涵蓋 2025 年 10 月到 2026 年 4 月,共约 40 万筆 Claude Code session。
报告建立了一套「任務專屬五級專业度量表」,从新手到專家。关鍵在於这个「專业度」的定義和你想的不一樣。簡單来说就是:你有多懂你要解的那个问題,而不是你有多会寫程式。
报告舉的例子很直白:一个资深工程師第一次寫 Rust,在那个任務上就算新手;反过来,一个从沒用过 Python 的会计師,只要能精確告訴 Claude 对帳規則必須滿足哪些條件、並在月結边界抓出逻辑错誤,在那个任務上就是專家。
數字差距直接说明了问題的嚴重程度。新手 session 每个 prompt 平均觸发约 5 个 Claude 动作、约 600 字产出;專家 session 觸发约 12 个动作、约 3,200 字产出,后者是前者动作的 2 倍多、输出的 5 倍。
Anthropic 的回歸分析顯示,每提升一个專业等級,Claude 的动作量增加约 9%,输出增加约 13%,控制工作型別、任務价值、月份、職业与模型版本后这个关係依然成立。
出错后,誰能把 agent 拉回正軌
成功率的數字更能说明问題。Anthropic 定義了两層成功標準:「判定成功」(分類器读完对話后判斷是否达標)与「验证成功」(需要有可查核的硬性证據,例如透过測試、git commit、用戶明確確认)。
整體而言,用戶展现的專业度越高,session 成功的机率就越高,而且大部分增幅集中在量表低端,从新手到中階的落差,比中階再爬到專家的落差更大。Anthropic 发现,專家等級 session 的验证成功率,是新手的两倍以上。
更有意思的是「出错后的修復率」。Anthropic 追蹤了那些遭遇麻煩的 session,也就是出现失敗訊號的对話。在这批 session 中,验证成功率从新手的 4% 升到專家的 15%;至少部分成功的比例,新手为 60%,中階到專家为 80-81%。
放棄率的差距也很明顯。当 session 遭遇困境时,新手有 19% 的机率直接放棄(判定失敗且零行程式碼),而其他等級僅有 5-7%。Anthropic 的解读是:领域專业的价值之一,在於当 agent 走偏时有能力把它導回正確方向。
这个发现指向一个反直覺的結論:**「懂问題」比「懂工具」更重要。**因为懂问題,才能在 Claude 給出错誤答案时知道哪裡错了;才能精確说明边界條件;才能在 agent 做出奇怪決策时立刻出聲糾正。
管理職贏过软體工程師,職业差異幾乎消失
Anthropic 的资料打破了另一个预期:職业背景並不像想像中重要。
软體相关職业整體验证成功率约 30%,其他職业约 26%。只看「有实际产出程式碼」的 session,差距拉开到 34% vs 29%,但如果放寬到「至少部分成功」,两組幾乎並列:89% vs 88%。
更值得注意的是,前十大職业中,每一个都落在软體工程師验证成功率的 7 个百分点以內。管理職的验证成功率甚至略高於软體工程師,Anthropic 的推測是:管理職擅长指派任務和设定規格的習慣,恰好迁移到了指揮 agent 上。
工作型態本身也在七个月內快速演變。修 Bug 的 session 佔比从 33% 降到 19%,幾乎砍半;操作软體(部署、设定、執行 pipeline)从 14% 升到 21%;寫作与资料分析约从 10% 翻倍到 20%。
換句話说,用戶在把 Claude Code 用於越来越多「程式周边的工作」,而不只是寫程式本身。
任務的经濟价值也同步上升。Anthropic 以 freelance 接案行情估算每场 session 的市场价值,七个月內平均上升约 27%;建構型任務上升约 43%,操作型约 34%,修復型约 32%。
对一个领域有基本到中等的理解,就能拿到大部分的好處;从中階再往專家爬,成功率的斜率明顯變平。
随著 AI 工具的持续擴張,它放大的不是程式技能,而是你对问題的理解深度。不懂自己要解什麼问題的人,用更強的模型也只是在更快速地迷路。