Claude Sonnet 5 上線:Anthropic 喊多項表現逼近 Opus,但 API 費用便宜 6 成

Anthropic 正式推出 Claude Sonnet 5,官方公布的跑分顯示其多項指標已逼近旗艦 Opus 4.8,API 標準定價每百萬 token 輸入 $3/輸出 $15,比 Opus 便宜約六成。
(前情提要:美國加州宣布與 Anthropic 合作:全州機關可半價使用 Claude)
(背景補充:AI 高定價時代終結倒數?Token 必會降價的五大結構性理由)

便宜六成,效能只差一點點,聽起來像是完美的商業故事,但真有那麼好嗎?就在稍早,Anthropic 正式發布 Claude Sonnet 5,並將其設為 Free 與 Pro 用戶的預設模型。定價方面,API 標準定價為每百萬 token 輸入 $3、輸出 $15(8 月 31 日前優惠期為 $2/$10),對比旗艦 Opus 4.8 的 $5/$25,便宜約六成。

跑分逼近旗艦

Anthropic 官方公布的數字如下,不過所有跑分均為官方自評資料,尚未經第三方獨立驗證:

在 SWE-bench Pro(agentic 程式碼能力)上,Sonnet 5 拿下 63.2%,前代 Sonnet 4.6 是 58.1%,旗艦 Opus 4.8 是 69.2%。

Terminal-Bench 2.1 終端機操作:Sonnet 5 80.4%,Opus 4.8 82.7%。

Humanity’s Last Exam 多學科推理:Sonnet 5 搭配工具使用達 57.4%,幾乎追平 Opus 4.8 的 57.9%。

GDPval-AA v2 知識工作能力:Sonnet 5 得分 1,618,反而超越 Opus 4.8 的 1,615。

電腦操作能力同樣有進展:OSWorld-Verified 評測中,Sonnet 5 拿下 81.2%,前代為 78.5%,這個基準測試的核心場景是讓模型實際操控桌面,在真實作業系統環境下完成截圖、拖拉、跨應用資料傳遞等任務,接近真實自動化工作流的難度。

此外,Sonnet 5 支援最高 100 萬 token 的 context window,最大輸出則達 128k token。也就是一次可以餵進去大約 750 本小說的文字量,或一個大型企業的整批合約檔案,讓模型在單一對話中完成跨檔案的比對、摘要與決策,不需要分批處理。這個規格尤其適合長週期的 agentic 任務,因為模型不用在中途「忘掉」前面的脈絡。

帳單不一定跟著「便宜」走

Sonnet 5 採用了更新版的 tokenizer。tokenizer 白話說就是,把文字切成 token 的方式,切法變了、同樣一段文字算出來的 token 數就不同,帳單也跟著變。

Anthropic 說明,相同輸入在新 tokenizer 下可能產生 1.0 到 1.35 倍的 token 數量,視內容而定。官方聲稱定價已調整為「大致成本中性」,但建議高流量用戶自行跑基準測試,帳單有可能不降反升。

安全性方面,Anthropic 報告指出 Sonnet 5 比 Sonnet 4.6 的幻覺與諂媚傾向更低,拒絕惡意請求的能力也更強。但安全對比是相對的:Sonnet 5 在不當行為發生率上仍高於更強大的 Opus 4.8,也高於嚴格限制版的 Claude Mythos Preview。

在與 Mozilla 合作的 Firefox 147 漏洞開發評估中,Sonnet 5 未能產生可用漏洞(0%),但部分成功率為 13.2%,高於 Sonnet 4.6 的 8.8%,這兩個數字和 Opus 4.8 的 68.8% 相比仍差得遠,但 Anthropic 已將網路安全防護預設啟用。

此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆