程式碼有測試，這是當然的；
但大多數其他工作同樣可以被驗證：技術文檔可以套用評分量規（rubric）和風格指南（style guide）；
當人類設定好標準、並確保交給 agent 的所有工作都可被審查時，品質就能保持、不偏離初衷；
此外，可以讓一個 agent 幹活、另一個 agent 檢查——這就是常說的「Doer-Verifier」（執行者—驗證者）agent harness。

原文有個完整案例：某位工程負責人接手一個積壓（backlog）很重的新團隊，他叫上幾個人 + 幾個 agent 一起梳理優先級。

一組 agent 通讀所有積壓項、判斷是否有人在做、給無主項打複雜度分；

另一組從清單裡篩出中低複雜度項、直接產出程式碼改動。

起初，人類審查 agent 的每一個決策，並標出需要人介入的那些；然後，人類「教會」agent 把這類決策直接拋給人類，確保有艱難權衡的決定永遠有「human in the loop」。

並且每週，團隊還讓 agent 編一份包含「經驗與失誤（lessons & missteps）」的週報，讓 agent 記住錯誤、避免重犯。隨著時間推移，負責人能交給 agent 越來越複雜的改動，自己花在日常指導上的時間越來越少，如下圖：

像極了養聰明龍蝦的過程。

最後一段是全文我最欣賞的一處洞察——當 agent 變得更獨立之後，負責人開始教 agent 把「人類注意力」當作稀缺資源來對待：

比如把問題批次化，讓人一次性回答，重複關鍵上下文，讓人快速進入狀態，限制一次性丟給人的事項數量。

有些人甚至專門設一個 agent，唯一職責就是決定如何批次處理、並只把最重要的溝通上升給人類。

另一些人則給 agent 設「每天最多做多少工作」的護欄——這樣人類才來得及有意義地參與，並且保住對自己重要的技能不被荒廢。

筆者認為，這些經驗是整篇文章在「人機關係」上最深刻的地方。

第一，Anthropic的思想裡認為：有效的監督不是審批每一個動作，而是「處在能在關鍵時刻介入的位置」（being in a position to intervene when it matters）。
第二，把「人類注意力」顯式當作稀缺資源去優化，是一個被嚴重低估的設計原則。大多數關於 agent 的討論都在優化「agent 的能力」，而效率實際的瓶頸已經是「人的認知帶寬」了。
第三，Harness駕馭工程是在人機團隊裡，應該完全模擬高效團隊的方式，畢竟有些好馬，確實不需要韁繩，只需要目標。

四、人機協作時代，會無情地放大原團隊的組織品質

這篇文章最誠實、也最容易被忽略的一句話出現在結尾：

他說，上面這4條經驗其實並不新穎，早在AI出現之前就存在了，好的團隊要有強有力的北極星、清晰的角色、紮實的文件、共享的品質標準、從錯誤中學習的空間，都是我們幾十年來就熟知的健康團隊習慣。

而AI agent team 只是讓這些基本功變得更加重要。

如果沒有合理的機制建設，AI 不會自動讓團隊變強，甚至會造成擠壓，最終帶來混亂，比如：

因此，筆者認為，「從這波 agent 紅利裡拿到最多的團隊，也是那些最有意識地去踐行這些基本功的團隊。」

對正在押注 AI agent 的組織來說，這篇文章給出的真正功課，或許不在「怎麼用 Claude」，而在回頭把自己團隊的上下文、角色、目標與品質標準這四件舊事，認認真真地重做一遍。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

回覆

請輸入回覆內容

暫無回覆

解讀Anthropic新作：如何構建高效 AI 人機協作團隊