Epoch AI merilis peta sebaran keahlian Claude: keunggulan dalam menulis kode tetap konsisten, Opus 4.6 dan 4.7 telah menutupi kekurangan matematika

robot
Pembuatan abstrak sedang berlangsung
AIMPACT Pesan, 16 Mei (UTC+8), menurut pemantauan Beating dari Dongcha, analisis terbaru Indeks Kemampuan Khusus Domain (Domain-specific ECI) yang dirilis oleh Epoch AI mengungkapkan bahwa model Claude dari Anthropic secara relatif menunjukkan kekuatan dalam penulisan kode dan kelemahan dalam matematika. Namun data terbaru menunjukkan bahwa fenomena ketidakseimbangan ini sedang membaik dengan cepat. Berdasarkan perhitungan, dalam banyak generasi model sebelumnya, performa Claude di pengujian standar rekayasa perangkat lunak (SWE-ECI) selalu stabil lebih tinggi daripada skor komprehensifnya, sementara di pengujian standar matematika (Math-ECI) terdapat kesenjangan yang cukup besar. Model Opus 4.6 dan 4.7 yang terbaru telah memperkecil jarak antara skor matematika dan skor komprehensif menjadi kurang dari 1 poin, menutupi kekurangan sebelumnya. Mekanisme pengukuran ECI membandingkan kinerja relatif antar berbagai model, sehingga secara langsung mencerminkan tingkat kesulitan rata-rata tugas tertentu terhadap AI, bukan terhadap manusia. (Sumber: BlockBeats)
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 6
  • 1
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
ReorgPanicButton
· 5jam yang lalu
Math-ECI menyamakan kedudukan berarti bisa mengatasi semua skenario, tidak lagi hanya alat bagi programmer
Lihat AsliBalas0
Half-SectionedSucculent
· 7jam yang lalu
Indeks tingkat kesulitan relatif lebih menarik daripada skor absolut, karena melihat pengurangan jarak nyata antar model.
Lihat AsliBalas0
GateUser-c3de680b
· 7jam yang lalu
Opus 4.6/4.7 Gelombang penguatan ini sangat stabil, kekuatan kode dan matematika juga mengikuti, sehingga daya guna benar-benar masuk ke dalam barisan terdepan.
Lihat AsliBalas0
GateUser-5578154d
· 8jam yang lalu
Claude akhirnya mulai menunjukkan kemampuan matematiknya
Lihat AsliBalas0
BridgeHopster
· 9jam yang lalu
Selisih dalam satu menit, dibulatkan ke atas atau ke bawah, berarti tidak ada kekurangan
Lihat AsliBalas0
SudoSage
· 9jam yang lalu
SWE dan Math dual tinggi, generasi Opus ini bisa disebut pemain serba bisa
Lihat AsliBalas0