広場
最新
注目
ニュース
プロフィール
ポスト
RampがSWE-Benchプライベートベンチマークをリリース:Claude Fable 5が87.5%の勝率で優勝
CoinNetwork
2026-06-13 02:33:24
フォロー
概要作成中
币界网のニュースによると、Rampは最先端のAIコーディングインテリジェンスエージェント向けのプライベートテストベンチマークRamp SWE-Benchを発表しました。このベンチマークには、Rampの実際の運用環境から抽出された80のバックエンド開発タスクが含まれており、公共評価データセットがモデルの事前学習によるデータ漏洩や指標の飽和問題を引き起こすのを防ぐことを目的としています。公開された14モデルの横断評価結果によると、Anthropicが最新リリースしたClaude Fable 5が87.5%の解決率でトップに立ち、Claude Opus 4.7とGPT-5.5が並んで2位で、それぞれ83.75%の解決率を示しました。テストデータはまた、異なるモデルの価格と性能のトレードオフも明らかにしており、中国製モデルのKimi K2.6とGLM 5.1は解決率が近く、それぞれ72.5%と71.25%を記録していますが、Kimi K2.6の平均コストは0.69ドルで、GLM 5.1より約34%安価です。
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については
免責事項
をご覧ください。
4 いいね
報酬
4
3
1
共有
コメント
コメントを追加
コメントを追加
コメント
VolatilityOfToastingBread
· 4時間前
データ漏洩は確かに大きな問題であり、プライベートテストだけが説得力を持つ
原文表示
返信
0
Lemon-FlavoredLiquidation
· 4時間前
Claudeこの価格でこの成績を出せるのは、Anthropicのインフラコストをどう抑えているのか?
原文表示
返信
0
RetroRadioSignal
· 4時間前
Kimiのコストパフォーマンスはちょっと魅力的だね、0.69ドルで何を自転車に求める必要があるのか
原文表示
返信
0
人気の話題
もっと見る
#
MyGateTradeStory
160.42K 人気度
#
TradFiCFDGoldMaster
1.99M 人気度
#
IsraelStrikesIranBTCPlunges
57.61K 人気度
#
PredictWorldCup🇺🇸vs🇵🇾
771.66K 人気度
#
MarvellSurgesOver11%LeadingChipSectorWithAI
5.73M 人気度
ピン留め
サイトマップ
RampがSWE-Benchプライベートベンチマークをリリース:Claude Fable 5が87.5%の勝率で優勝