Opus 4.6/4.7 Mengisi kekurangan matematika agar setara dengan kemampuan kode, indikator ECI ini menarik — ini mengukur tingkat kesulitan relatif antar model, bukan dibandingkan dengan manusia, jadi jangan salah paham menjadi "melampaui matematikawan manusia"

Lihat Asli
MeNews
Epoch AI merilis peta sebaran keahlian Claude: keunggulan dalam menulis kode tetap konsisten, Opus 4.6 dan 4.7 telah menutupi kekurangan matematika
Analisis indeks kemampuan domain-spesifik Epoch AI menunjukkan bahwa seri Claude telah lama unggul dalam penulisan kode, tetapi kemampuan matematiknya relatif lemah; data terbaru menunjukkan bahwa ketidakseimbangan ini sedang dengan cepat membaik. Sebelumnya Claude memiliki skor SWE-ECI lebih tinggi dari skor gabungan, dan terdapat jarak pada Math-ECI, tetapi Opus 4.6/4.7 memperkecil keduanya dalam satu poin, menutupi kekurangan tersebut. ECI mencerminkan tingkat kesulitan tugas relatif antar model, bukan tingkat kesulitan bagi manusia.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan