Ramp publie le benchmark privé SWE-Bench : Claude Fable 5 remporte la victoire avec un taux de réussite de 87,5 %

robot
Création du résumé en cours
CoinWorld消息,Ramp发布了针对前沿AI编码智能体的私有测试基准Ramp SWE-Bench。该基准包含80个源自Ramp真实生产环境的后端开发任务,旨在解决公共评估数据集因模型预训练而导致的数据泄露与指标饱和问题。根据公布的14款模型横向评测结果,Anthropic最新推出的Claude Fable 5以87.5%的解决率高居榜首,Claude Opus 4.7和GPT-5.5并列第二,解决率均为83.75%。测试数据还揭示了不同模型在价格与性能间的权衡,国产模型Kimi K2.6与GLM 5.1解决率相近,分别为72.5%与71.25%,但Kimi K2.6的平均成本为0.69美元,比GLM 5.1便宜约34%。
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 3
  • 1
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
VolatilityOfToastingBread
· Il y a 2h
La fuite de données est effectivement un gros problème, seuls les tests privés sont convaincants
Voir l'originalRépondre0
Lemon-FlavoredLiquidation
· Il y a 2h
Comment Claude peut-il offrir ces performances à ce prix, comment Anthropic réduit-il ses coûts d'infrastructure ?
Voir l'originalRépondre0
RetroRadioSignal
· Il y a 2h
Kimi offre un bon rapport qualité-prix, à 0,69 dollar, que demander de plus ?
Voir l'originalRépondre0
  • Épinglé