AA-Briefcase dirilis: Claude Fable 5 juara, GLM-5.2 masuk tiga besar

robot
Pembuatan abstrak sedang berlangsung
Berita dari Coinjie.com, AA-Briefcase mengumumkan bahwa Claude Fable 5 meraih juara dalam pengujian, sementara GLM-5.2 masuk tiga besar. Lembaga pengujian Artificial Analysis meluncurkan standar evaluasi pengetahuan siklus panjang pertama yang dirancang khusus untuk agen model besar, mencakup empat skenario: ilmu data, manajemen produk, operasi perbankan, dan strategi industri berat, dikembangkan oleh para ahli industri dari Google, McKinsey, dan Boston Consulting, dengan 91 tugas yang dirancang untuk meniru alur proyek bisnis yang kompleks dan nyata. Hasilnya menunjukkan bahwa Claude Fable 5 mendapatkan skor komprehensif tertinggi, diikuti oleh Claude Opus 4.8 dan GLM-5.2 yang menempati posisi kedua dan ketiga. Meskipun Claude Fable 5 menunjukkan performa yang kuat, tingkat keberhasilannya dalam standar tugas tunggal yang ketat hanya 3%. Dalam model sumber terbuka, GLM-5.2 dari Zhipu tampil menonjol, dengan skor komprehensif hanya 90 poin di bawah Claude Opus 4.8, tetapi biaya operasinya kurang dari 25% dari model tersebut.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 4
  • 1
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
MempoolMaggie
· 4jam yang lalu
Claude Fable 5 memenangkan juara tetapi tingkat kesempurnaan 3%, angka ini cukup menyakitkan, menunjukkan bahwa tugas jangka panjang masih merupakan tantangan neraka bagi AI.
Lihat AsliBalas0
SandwichAlertAgent
· 4jam yang lalu
Opus 4.8 posisi kedua agak canggung, mahal dan belum stabil, Anthropic harus memikirkan bagaimana menceritakan kisahnya.
Lihat AsliBalas0
BridgeHopRanger
· 4jam yang lalu
GLM-5.2 sumber terbuka dengan rasio biaya dan manfaat yang luar biasa, selisih skor 90 poin tetapi menghemat biaya hingga 75%, perusahaan harus menghitung ulang pengadaan mereka.
Lihat AsliBalas0
GlassDomeObservatory
· 4jam yang lalu
91 item tugas mencakup empat industri, didukung oleh Google dan McKinsey, saya percaya nilai dari standar ini.
Lihat AsliBalas0
  • Disematkan