Anthropic 正式推出 Claude Sonnet 5，官方公布的跑分顯示其多項指標已逼近旗艦 Opus 4.8，API 標準定價每百萬 token 輸入 $3／輸出 $15，比 Opus 便宜約六成。
（前情提要：美國加州宣布與 Anthropic 合作：全州機關可半價使用 Claude）
（背景補充：AI 高定價時代終結倒數？Token 必會降價的五大結構性理由）

便宜六成，效能只差一點點，聽起來像是完美的商業故事，但真有那麼好嗎？就在稍早，Anthropic 正式發布 Claude Sonnet 5，並將其設為 Free 與 Pro 用戶的預設模型。定價方面，API 標準定價為每百萬 token 輸入 $3、輸出 $15（8 月 31 日前優惠期為 $2/$10），對比旗艦 Opus 4.8 的 $5/$25，便宜約六成。

跑分逼近旗艦

Anthropic 官方公布的數字如下，不過所有跑分均為官方自評資料，尚未經第三方獨立驗證：

在 SWE-bench Pro（agentic 程式碼能力）上，Sonnet 5 拿下 63.2%，前代 Sonnet 4.6 是 58.1%，旗艦 Opus 4.8 是 69.2%。

Terminal-Bench 2.1 終端機操作：Sonnet 5 80.4%，Opus 4.8 82.7%。

Humanity’s Last Exam 多學科推理：Sonnet 5 搭配工具使用達 57.4%，幾乎追平 Opus 4.8 的 57.9%。

GDPval-AA v2 知識工作能力：Sonnet 5 得分 1,618，反而超越 Opus 4.8 的 1,615。

電腦操作能力同樣有進展：OSWorld-Verified 評測中，Sonnet 5 拿下 81.2%，前代為 78.5%，這個基準測試的核心場景是讓模型實際操控桌面，在真實作業系統環境下完成截圖、拖拉、跨應用資料傳遞等任務，接近真實自動化工作流的難度。

此外，Sonnet 5 支援最高 100 萬 token 的 context window，最大輸出則達 128k token。也就是一次可以餵進去大約 750 本小說的文字量，或一個大型企業的整批合約檔案，讓模型在單一對話中完成跨檔案的比對、摘要與決策，不需要分批處理。這個規格尤其適合長週期的 agentic 任務，因為模型不用在中途「忘掉」前面的脈絡。

帳單不一定跟著「便宜」走

Sonnet 5 採用了更新版的 tokenizer。tokenizer 白話說就是，把文字切成 token 的方式，切法變了、同樣一段文字算出來的 token 數就不同，帳單也跟著變。

Anthropic 說明，相同輸入在新 tokenizer 下可能產生 1.0 到 1.35 倍的 token 數量，視內容而定。官方聲稱定價已調整為「大致成本中性」，但建議高流量用戶自行跑基準測試，帳單有可能不降反升。

安全性方面，Anthropic 報告指出 Sonnet 5 比 Sonnet 4.6 的幻覺與諂媚傾向更低，拒絕惡意請求的能力也更強。但安全對比是相對的：Sonnet 5 在不當行為發生率上仍高於更強大的 Opus 4.8，也高於嚴格限制版的 Claude Mythos Preview。

在與 Mozilla 合作的 Firefox 147 漏洞開發評估中，Sonnet 5 未能產生可用漏洞（0%），但部分成功率為 13.2%，高於 Sonnet 4.6 的 8.8%，這兩個數字和 Opus 4.8 的 68.8% 相比仍差得遠，但 Anthropic 已將網路安全防護預設啟用。

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

打賞
按讚
回覆
轉發
分享

回覆

請輸入回覆內容

暫無回覆

已置頂

Claude Sonnet 5 上線：Anthropic 喊多項表現逼近 Opus，但 API 費用便宜 6 成

跑分逼近旗艦

帳單不一定跟著「便宜」走

熱門話題

Gate股票轉倉功能上線

Strategy擬回購股票

預測世界盃英格蘭VS剛果

特朗普披露持有超1億美元加密資產

Sharplink增持1萬枚ETH

已置頂