Anthropic 正式推出 Claude Sonnet 5，官方公布的跑分显示其多项指标已逼近旗舰 Opus 4.8，API 标准定价每百万 token 输入 $3／输出 $15，比 Opus 便宜约六成。
（前情提要：美国加州宣布与 Anthropic 合作：全州机关可半价使用 Claude）
（背景补充：AI 高定价时代终结倒数？Token 必会降价的五大结构性理由）

便宜六成，效能只差一点点，听起来像是完美的商业故事，但真有那么好吗？就在稍早，Anthropic 正式发布 Claude Sonnet 5，并将其设为 Free 与 Pro 用户的默认模型。定价方面，API 标准定价为每百万 token 输入 $3、输出 $15（8 月 31 日前优惠期为 $2/$10），对比旗舰 Opus 4.8 的 $5/$25，便宜约六成。

跑分逼近旗舰

Anthropic 官方公布的数字如下，不过所有跑分均为官方自评资料，尚未经第三方独立验证：

在 SWE-bench Pro（agentic 程式码能力）上，Sonnet 5 拿下 63.2%，前代 Sonnet 4.6 是 58.1%，旗舰 Opus 4.8 是 69.2%。

Terminal-Bench 2.1 终端机操作：Sonnet 5 80.4%，Opus 4.8 82.7%。

Humanity’s Last Exam 多学科推理：Sonnet 5 搭配工具使用达 57.4%，几乎追平 Opus 4.8 的 57.9%。

GDPval-AA v2 知识工作能力：Sonnet 5 得分 1,618，反而超越 Opus 4.8 的 1,615。

电脑操作能力同样有进展：OSWorld-Verified 评测中，Sonnet 5 拿下 81.2%，前代为 78.5%，这个基准测试的核心场景是让模型实际操控桌面，在真实操作系统环境下完成截图、拖拉、跨应用资料传递等任务，接近真实自动化工作流的难度。

此外，Sonnet 5 支持最高 100 万 token 的 context window，最大输出则达 128k token。也就是一次可以喂进去大约 750 本小说的文字量，或一个大型企业的整批合约档案，让模型在单一对话中完成跨档案的比对、摘要与决策，不需要分批处理。这个规格尤其适合长周期的 agentic 任务，因为模型不用在中间「忘掉」前面的脉络。

账单不一定跟着「便宜」走

Sonnet 5 采用了更新版的 tokenizer。tokenizer 白话说是，把文字切成 token 的方式，切法变了、同样一段文字算出来的 token 数就不同，账单也跟着变。

Anthropic 说明，相同输入在新 tokenizer 下可能产生 1.0 到 1.35 倍的 token 数量，视内容而定。官方声称定价已调整为「大致成本中性」，但建议高流量用户自行跑基准测试，账单有可能不降反升。

安全性方面，Anthropic 报告指出 Sonnet 5 比 Sonnet 4.6 的幻觉与谄媚倾向更低，拒绝恶意请求的能力也更强。但安全对比是相对的：Sonnet 5 在不当行为发生率上仍高于更强大的 Opus 4.8，也高于严格限制版的 Claude Mythos Preview。

在与 Mozilla 合作的 Firefox 147 漏洞开发评估中，Sonnet 5 未能产生可用漏洞（0%），但部分成功率为 13.2%，高于 Sonnet 4.6 的 8.8%，这两个数字和 Opus 4.8 的 68.8% 相比仍差得远，但 Anthropic 已将网络安全防护默认启用。

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

赞赏
点赞
评论
转发
分享

请输入评论内容

暂无评论

置顶

Claude Sonnet 5 上线：Anthropic 喊多项表现逼近 Opus，但 API 费用便宜 6 成

跑分逼近旗舰

账单不一定跟着「便宜」走

热门话题

Gate上线股票转仓功能

Strategy拟回购股票

预测世界杯英格兰VS刚果

特朗普披露持有超1亿美元BTCETH

Sharplink增持1万枚ETH

置顶