RampがSWE-Benchプライベートベンチマークをリリース:Claude Fable 5が87.5%の勝率で優勝

robot
概要作成中
币界网のニュースによると、Rampは最先端のAIコーディングインテリジェンスエージェント向けのプライベートテストベンチマークRamp SWE-Benchを発表しました。このベンチマークには、Rampの実際の運用環境から抽出された80のバックエンド開発タスクが含まれており、公共評価データセットがモデルの事前学習によるデータ漏洩や指標の飽和問題を引き起こすのを防ぐことを目的としています。公開された14モデルの横断評価結果によると、Anthropicが最新リリースしたClaude Fable 5が87.5%の解決率でトップに立ち、Claude Opus 4.7とGPT-5.5が並んで2位で、それぞれ83.75%の解決率を示しました。テストデータはまた、異なるモデルの価格と性能のトレードオフも明らかにしており、中国製モデルのKimi K2.6とGLM 5.1は解決率が近く、それぞれ72.5%と71.25%を記録していますが、Kimi K2.6の平均コストは0.69ドルで、GLM 5.1より約34%安価です。
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • 3
  • 1
  • 共有
コメント
コメントを追加
コメントを追加
VolatilityOfToastingBread
· 4時間前
データ漏洩は確かに大きな問題であり、プライベートテストだけが説得力を持つ
原文表示返信0
Lemon-FlavoredLiquidation
· 4時間前
Claudeこの価格でこの成績を出せるのは、Anthropicのインフラコストをどう抑えているのか?
原文表示返信0
RetroRadioSignal
· 4時間前
Kimiのコストパフォーマンスはちょっと魅力的だね、0.69ドルで何を自転車に求める必要があるのか
原文表示返信0