Ramp發布SWE-Bench私有基準:Claude Fable 5以87.5%勝率奪冠

robot
摘要生成中
幣界網消息,Ramp發布了針對前沿AI編碼智能體的私有測試基準Ramp SWE-Bench。該基準包含80個源自Ramp真實生產環境的後端開發任務,旨在解決公共評估數據集因模型預訓練而導致的數據洩露與指標飽和問題。根據公布的14款模型橫向評測結果,Anthropic最新推出的Claude Fable 5以87.5%的解決率高居榜首,Claude Opus 4.7和GPT-5.5並列第二,解決率均為83.75%。測試數據還揭示了不同模型在價格與性能間的權衡,國產模型Kimi K2.6與GLM 5.1解決率相近,分別為72.5%與71.25%,但Kimi K2.6的平均成本為0.69美元,比GLM 5.1便宜約34%。
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 3
  • 1
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
烤面包的波动率
· 4小時前
數據泄露確實是大問題,私有測試才有說服力
查看原文回復0
柠檬味清算
· 4小時前
Claude這價格能達到這樣的成績,Anthropic的基礎設施成本是怎麼壓低的?
查看原文回復0
复古收音机信号
· 4小時前
Kimi 性價比有點香啊,0.69 美元還要啥自行車
查看原文回復0