Ramp发布SWE-Bench私有基准:Claude Fable 5以87.5%胜率夺冠

robot
摘要生成中
币界网消息,Ramp发布了针对前沿AI编码智能体的私有测试基准Ramp SWE-Bench。该基准包含80个源自Ramp真实生产环境的后端开发任务,旨在解决公共评估数据集因模型预训练而导致的数据泄露与指标饱和问题。根据公布的14款模型横向评测结果,Anthropic最新推出的Claude Fable 5以87.5%的解决率高居榜首,Claude Opus 4.7和GPT-5.5并列第二,解决率均为83.75%。测试数据还揭示了不同模型在价格与性能间的权衡,国产模型Kimi K2.6与GLM 5.1解决率相近,分别为72.5%与71.25%,但Kimi K2.6的平均成本为0.69美元,比GLM 5.1便宜约34%。
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 3
  • 1
  • 分享
评论
请输入评论内容
请输入评论内容
烤面包的波动率
· 2小时前
数据泄露确实是大问题,私有测试才有说服力
回复0
柠檬味清算
· 2小时前
Claude这价格能打这成绩,Anthropic的infra成本怎么压的?
回复0
复古收音机信号
· 2小时前
Kimi性价比有点香啊,0.69刀还要啥自行车
回复0