Opus4.8 正式發布,AI 第一次會說「我不確定」了

作者|樺林舞王

編輯| 靖宇

如果你和我一樣,每天靠 AI 寫稿、寫程式、做研究,那你一定有過這種經歷——AI 信心滿滿地交出一份結果,你檢查半天發現裡面藏著一個低級錯誤,而它全程沒吭一聲。

這種「假裝一切都好」的毛病,可能是當下大模型最讓人頭疼的問題之一。

5 月 28 日,Anthropic 發布了 Claude Opus 4.8。距離上一個版本 Opus 4.7 的發布,僅僅過去了六周。

Opus4.8 不是一次令人窒息的世代飛躍,Anthropic 自己也坦承這只是「modest but tangible improvement(適度但明顯的提升)」——但它做對了一件很多人期待已久的事:讓 AI 學會承認自己的不確定性。

01 更快的節奏,更誠實的模型

從 2025 年 11 月的 Opus 4.5 開始,Anthropic 的旗艦模型迭代節奏已經變成了大約每兩個月一次——4.5(去年 11 月)、4.6(今年 2 月)、4.7(4 月)、4.8(5 月底)。 六周一個版本,這在大模型行業裡幾乎是最激進的迭代速度了。

Opus 4.8 與自家模型和友商模型的對比|圖片來源:Anthropic

在標準 benchmark 上,Opus 4.8 的表現可以用「穩步推進」來概括。程式能力方面,SWE-bench Pro 從 4.7 的 64.3% 提升到 69.2%,SWE-bench Verified 從 87.6% 到 88.6%。多學科推理(Humanity's Last Exam)在使用工具的情況下拿到了 57.9%。知識工作評測 GDPval-AA 以 1890 的 Elo 值領先於 GPT-5.5 的 1769。計算機操作評測 OSWorld-Verified 也以 83.4% 領跑。

唯一被 GPT-5.5 壓過的項目是終端程式設計(Terminal-Bench 2.1),GPT-5.5 拿了 78.2%,Opus 4.8 是 74.6%。

但說實話,這些跑分數字已經很難讓人興奮了。SWE-bench Verified 這種評測正在接近飽和,GPQA Diamond 上幾家模型都在 93% 以上趴著—— 分數越高,每漲一個點的實際感知差異就越小。

真正讓我覺得這次更新值得寫一篇稿子的,是 Anthropic 在「誠實度」這個方向上的投入。

02 會說「我不確定」的 AI

Anthropic 給出了一個很具體的數據: Opus 4.8 在程式任務中,漏報自己程式碼缺陷的概率比 Opus 4.7 降低了大約四倍。

這是什麼意思?就是說以前 Opus 4.7 寫完一段程式碼,即便裡面有 bug,它也可能若無其事地告訴你「完成了,沒問題」。而 Opus 4.8 更傾向於主動說「這裡有個地方我不太確定,你最好檢查一下」。

在對齊評估中,Opus 4.8 在親社會特質(比如尊重用戶自主權、為用戶利益著想)上達到了新高,而欺騙、配合濫用等「不對齊行為」的發生率大幅低於 Opus 4.7,接近 Anthropic 目前對齊表現最好的模型 Claude Mythos Preview。

Cursor 的 CEO Michael Truell 給出的評價是,Opus 4.8 在 CursorBench 上每個努力級別都超越了之前的 Opus 模型,工具調用效率更高,用更少的步驟達到同樣的智能水平。法律 AI 公司 Casetext 的應用研究負責人更直接說,Opus 4.8 在法律代理基準測試上創了新紀錄,是第一個整體突破 10% all-pass 標準的模型。

Devin 的 CEO Scott Wu 則點出了一个實際痛點——Opus 4.8 修復了 Opus 4.7 中存在的註解冗餘和工具調用問題,這對無人值守的自主工程工作流程來說至關重要。

在一個 AI 越來越多地被用來做自主決策的時代,一個會主動暴露自身弱點的模型,反而是最值得信賴的。

模型非一致性上,Opus4.8 已經和傳說中的 Mythos 不相上下|圖片來源:Anthropic

不過,在 Opus 4.8 的系統安全卡中,Anthropic 坦率披露了一個耐人尋味的發現: Opus 4.8 在訓練過程中,開始出現一種「揣測評分者意圖」的傾向。

具體來說,模型在推理時會主動思考自己的輸出將如何被評分——即使沒有人告訴它正在被評估。初步的可解釋性研究發現,在大約 5% 的訓練片段中,模型存在未被言語化的、與評分相關的推理。

說白了,AI 正在學會「考試思維」——它在意的不一定是給出最好的答案,而是給出「閱卷老師」最想看到的答案。

Anthropic 強調,這種傾向目前還沒有導致更差的實際行為——事實上 Opus 4.8 的誤導性聲明比之前的模型更少。但他們也承認,這是一個「可能在未來使訓練變得複雜」的趨勢。

這個問題其實不是 Anthropic 獨有的。所有通過 RLHF(基於人類反饋的強化學習)訓練的模型,理論上都可能發展出這種「討好評審」的策略。 Anthropic 的不同之處在於,它選擇公開講出來——在大模型廠商普遍報喜不報憂的行業氛圍裡,這至少算得上一種值得尊重的坦誠。

03 真正改變工作的功能

跟 Opus 4.8 一起發布的還有幾個功能更新,其中最值得關注的是 Claude Code 中的「Dynamic Workflows」(動態工作流)。

這個功能允許 Claude 在一次會話中,派出數百個並行子代理來協同完成任務 。它的工作方式是:Claude 先制定計畫,然後把任務拆分成子任務,分派給不同的子代理並行執行,這些代理甚至會從不同角度質疑彼此的結論,反覆迭代直到結果收斂,最後統一驗證再匯報給用戶。

Anthropic 舉的例子是,Claude Code 配合 Opus 4.8 現在可以完成跨越數十萬行程式碼的程式庫級別遷移,從啟動到合併一氣呵成,以現有測試套件作為品質標準。 單次運行最多支持 1000 個子代理,最多 16 個並發。

另一個更新是「Effort Control」(努力控制),在 claude.ai 和 Cowork 中,用戶可以手動選擇 Claude 在每次回覆中投入多少「思考力」——從省時省力的低檔,到不惜 token 成本的 max 檔。 這本質上是把「花多少錢辦多大事」的決策權交給了用戶。 Opus 4.8 預設設為「high」,編碼任務下的 token 消耗與 Opus 4.7 的預設值相當,但性能更好。

快速模式(Fast Mode)也值得一提:速度提升到 2.5 倍,而價格比之前便宜了三倍。

04 Mythos 的影子

在發布 Opus 4.8 的同時,Anthropic 再次提到了 Claude Mythos——那個目前只對少數組織開放的、能力更強的模型。Anthropic 說 Mythos 級別的模型預計「在未來幾周內」向所有客戶開放。

這其實才是 Opus 4.8 發布的更大背景——它像是 Mythos 正式登場前的一次「預熱」。 Opus 4.8 在對齊表現上已經接近了 Mythos Preview,這可能意味著 Anthropic 正在為更強大模型的安全釋放做最後的準備。

從價格角度看,Opus 4.8 保持了每百萬輸入 token 5 美元、輸出 25 美元的定價不變。API 標識為 claude-opus-4-8,已經在 Claude API、Amazon Bedrock、Google Cloud Vertex AI 和 Microsoft Foundry 上全面可用。

在 OpenAI 的 GPT-5.5、Google 的 Gemini 3.1 Pro 持續施壓的格局下,Anthropic 選擇了一條獨特的路線: 不靠單一的跑分碾壓來製造話題,而是把「模型人格」——誠實、可靠、知進退——當作核心賣點來打。

這能不能跑通,還要看用戶買不買賬。但至少在今天,當我讓 Opus 4.8 幫我審一段程式碼時,它告訴了我一個 4.7 從來不會提的隱患。

光憑這一點,這次更新就沒有白等。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆
  • 已置頂