Ramp merilis benchmark privat dari SWE-Bench: Claude Fable 5 memenangkan juara dengan tingkat kemenangan 87,5%

robot
Pembuatan abstrak sedang berlangsung
Berita dari CoinWorld, Ramp merilis standar pengujian privat Ramp SWE-Bench untuk agen kode AI terdepan. Standar ini mencakup 80 tugas pengembangan backend yang berasal dari lingkungan produksi nyata Ramp, bertujuan mengatasi masalah kebocoran data dan kejenuhan indikator yang disebabkan oleh dataset evaluasi publik akibat pra-pelatihan model. Berdasarkan hasil evaluasi horizontal dari 14 model yang diumumkan, Claude Fable 5 terbaru dari Anthropic menduduki peringkat teratas dengan tingkat penyelesaian 87,5%, diikuti oleh Claude Opus 4.7 dan GPT-5.5 yang berbagi posisi kedua dengan tingkat penyelesaian masing-masing 83,75%. Data pengujian juga mengungkapkan trade-off antara harga dan kinerja dari berbagai model, dengan model domestik Kimi K2.6 dan GLM 5.1 memiliki tingkat penyelesaian yang serupa, masing-masing 72,5% dan 71,25%, tetapi biaya rata-rata Kimi K2.6 sebesar 0,69 dolar AS, sekitar 34% lebih murah daripada GLM 5.1.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 3
  • 1
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
VolatilityOfToastingBread
· 4jam yang lalu
Kebocoran data memang merupakan masalah besar, pengujian privatlah yang memiliki kekuatan bukti
Lihat AsliBalas0
Lemon-FlavoredLiquidation
· 4jam yang lalu
Bagaimana harga Claude bisa memberikan hasil seperti ini, bagaimana biaya infrastruktur Anthropic ditekan?
Lihat AsliBalas0
RetroRadioSignal
· 4jam yang lalu
Kimi memiliki rasio harga dan kinerja yang cukup menarik, 0,69 dolar masih mau apa lagi selain sepeda
Lihat AsliBalas0
  • Disematkan