Anthropic 终于把 Mythos 模型的安全版 Fable-5 放出来了。


参数这些网上已经讲很多了,我就不重复搬了。更值得看的,其实是第三方编程工具 Augment Code 做的真实任务测试。
这组测试一共跑了 489 个编程任务,结果挺有意思:
Fable-5 在总体表现和正确性上都明显领先。总体分数 +0.224,正确性 +0.191,确实是目前看起来最强的一档。
但另一个细节也很关键:GPT-5.5 依然稳稳压过 Opus-4.8。
总体分数 GPT-5.5 是 +0.164,Opus-4.8 是 +0.128;正确性 GPT-5.5 是 +0.141,Opus-4.8 是 +0.092。
这也解释了我最近的体感:Opus-4.8 出来之后,我并没有明显感觉它比 GPT-5.5 更强,至少在实际编程任务里,这种感觉不是幻觉。
更现实的是成本问题。Fable-5 虽然强,但 Tokens 消耗和成本也高:每个任务约 14.6k tokens,单任务成本 $3.09;相比之下 GPT-5.5 是 7.5k tokens、$1.52。强是真的强,贵也是真的贵。
所以最后还是那句话:期待 GPT-5.6 早点来。
如果 Fable-5 只能在订阅计划里用 10 天,之后就得按 API 原价调用,那它很可能不是普通用户的日常生产力工具,而是少数人、少数场景里的“奢侈品模型”。
AI 模型的使用,可能真的要开始分阶级了。
post-image
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论