Anthropic 正式推出 Claude Sonnet 5,官方公布的跑分显示其多项指标已逼近旗舰 Opus 4.8,API 标准定价每百万 token 输入 $3/输出 $15,比 Opus 便宜约六成。 (前情提要:美国加州宣布与 Anthropic 合作:全州机关可半价使用 Claude) (背景补充:AI 高定价时代终结倒数?Token 必会降价的五大结构性理由)
便宜六成,效能只差一点点,听起来像是完美的商业故事,但真有那么好吗?就在稍早,Anthropic 正式发布 Claude Sonnet 5,并将其设为 Free 与 Pro 用户的默认模型。定价方面,API 标准定价为每百万 token 输入 $3、输出 $15(8 月 31 日前优惠期为 $2/$10),对比旗舰 Opus 4.8 的 $5/$25,便宜约六成。
Anthropic 官方公布的数字如下,不过所有跑分均为官方自评资料,尚未经第三方独立验证:
在 SWE-bench Pro(agentic 程式码能力)上,Sonnet 5 拿下 63.2%,前代 Sonnet 4.6 是 58.1%,旗舰 Opus 4.8 是 69.2%。
Terminal-Bench 2.1 终端机操作:Sonnet 5 80.4%,Opus 4.8 82.7%。
Humanity’s Last Exam 多学科推理:Sonnet 5 搭配工具使用达 57.4%,几乎追平 Opus 4.8 的 57.9%。
GDPval-AA v2 知识工作能力:Sonnet 5 得分 1,618,反而超越 Opus 4.8 的 1,615。
电脑操作能力同样有进展:OSWorld-Verified 评测中,Sonnet 5 拿下 81.2%,前代为 78.5%,这个基准测试的核心场景是让模型实际操控桌面,在真实操作系统环境下完成截图、拖拉、跨应用资料传递等任务,接近真实自动化工作流的难度。
此外,Sonnet 5 支持最高 100 万 token 的 context window,最大输出则达 128k token。也就是一次可以喂进去大约 750 本小说的文字量,或一个大型企业的整批合约档案,让模型在单一对话中完成跨档案的比对、摘要与决策,不需要分批处理。这个规格尤其适合长周期的 agentic 任务,因为模型不用在中间「忘掉」前面的脉络。
Sonnet 5 采用了更新版的 tokenizer。tokenizer 白话说是,把文字切成 token 的方式,切法变了、同样一段文字算出来的 token 数就不同,账单也跟着变。
Anthropic 说明,相同输入在新 tokenizer 下可能产生 1.0 到 1.35 倍的 token 数量,视内容而定。官方声称定价已调整为「大致成本中性」,但建议高流量用户自行跑基准测试,账单有可能不降反升。
安全性方面,Anthropic 报告指出 Sonnet 5 比 Sonnet 4.6 的幻觉与谄媚倾向更低,拒绝恶意请求的能力也更强。但安全对比是相对的:Sonnet 5 在不当行为发生率上仍高于更强大的 Opus 4.8,也高于严格限制版的 Claude Mythos Preview。
在与 Mozilla 合作的 Firefox 147 漏洞开发评估中,Sonnet 5 未能产生可用漏洞(0%),但部分成功率为 13.2%,高于 Sonnet 4.6 的 8.8%,这两个数字和 Opus 4.8 的 68.8% 相比仍差得远,但 Anthropic 已将网络安全防护默认启用。
55.66万 热度
18.04万 热度
53.55万 热度
383.26万 热度
5548.37万 热度
Claude Sonnet 5 上线:Anthropic 喊多项表现逼近 Opus,但 API 费用便宜 6 成
Anthropic 正式推出 Claude Sonnet 5,官方公布的跑分显示其多项指标已逼近旗舰 Opus 4.8,API 标准定价每百万 token 输入 $3/输出 $15,比 Opus 便宜约六成。
(前情提要:美国加州宣布与 Anthropic 合作:全州机关可半价使用 Claude)
(背景补充:AI 高定价时代终结倒数?Token 必会降价的五大结构性理由)
便宜六成,效能只差一点点,听起来像是完美的商业故事,但真有那么好吗?就在稍早,Anthropic 正式发布 Claude Sonnet 5,并将其设为 Free 与 Pro 用户的默认模型。定价方面,API 标准定价为每百万 token 输入 $3、输出 $15(8 月 31 日前优惠期为 $2/$10),对比旗舰 Opus 4.8 的 $5/$25,便宜约六成。
跑分逼近旗舰
Anthropic 官方公布的数字如下,不过所有跑分均为官方自评资料,尚未经第三方独立验证:
在 SWE-bench Pro(agentic 程式码能力)上,Sonnet 5 拿下 63.2%,前代 Sonnet 4.6 是 58.1%,旗舰 Opus 4.8 是 69.2%。
Terminal-Bench 2.1 终端机操作:Sonnet 5 80.4%,Opus 4.8 82.7%。
Humanity’s Last Exam 多学科推理:Sonnet 5 搭配工具使用达 57.4%,几乎追平 Opus 4.8 的 57.9%。
GDPval-AA v2 知识工作能力:Sonnet 5 得分 1,618,反而超越 Opus 4.8 的 1,615。
电脑操作能力同样有进展:OSWorld-Verified 评测中,Sonnet 5 拿下 81.2%,前代为 78.5%,这个基准测试的核心场景是让模型实际操控桌面,在真实操作系统环境下完成截图、拖拉、跨应用资料传递等任务,接近真实自动化工作流的难度。
此外,Sonnet 5 支持最高 100 万 token 的 context window,最大输出则达 128k token。也就是一次可以喂进去大约 750 本小说的文字量,或一个大型企业的整批合约档案,让模型在单一对话中完成跨档案的比对、摘要与决策,不需要分批处理。这个规格尤其适合长周期的 agentic 任务,因为模型不用在中间「忘掉」前面的脉络。
账单不一定跟着「便宜」走
Sonnet 5 采用了更新版的 tokenizer。tokenizer 白话说是,把文字切成 token 的方式,切法变了、同样一段文字算出来的 token 数就不同,账单也跟着变。
Anthropic 说明,相同输入在新 tokenizer 下可能产生 1.0 到 1.35 倍的 token 数量,视内容而定。官方声称定价已调整为「大致成本中性」,但建议高流量用户自行跑基准测试,账单有可能不降反升。
安全性方面,Anthropic 报告指出 Sonnet 5 比 Sonnet 4.6 的幻觉与谄媚倾向更低,拒绝恶意请求的能力也更强。但安全对比是相对的:Sonnet 5 在不当行为发生率上仍高于更强大的 Opus 4.8,也高于严格限制版的 Claude Mythos Preview。
在与 Mozilla 合作的 Firefox 147 漏洞开发评估中,Sonnet 5 未能产生可用漏洞(0%),但部分成功率为 13.2%,高于 Sonnet 4.6 的 8.8%,这两个数字和 Opus 4.8 的 68.8% 相比仍差得远,但 Anthropic 已将网络安全防护默认启用。