Ujian masuk agen: Tugas tersulit di Fable 5 tetap diserahkan tanpa jawaban, biaya per soal 4 hingga 12 kali lipat lebih tinggi

robot
Pembuatan abstrak sedang berlangsung
ME AI Pesan, berdasarkan pemantauan Beating Monitoring, University of California, Berkeley RDI memimpin, bersama ratusan ahli industri, meluncurkan standar evaluasi AI baru bernama Agents' Last Exam (ALE), untuk menilai kemampuan agen cerdas dalam menyelesaikan pekerjaan profesional digital nyata. ALE mencakup 55 sub bidang profesional digital, mengumpulkan lebih dari 1500 tugas verifikasi yang berasal dari proyek nyata para ahli manusia, mendukung verifikasi hasil dalam lingkungan interaktif GUI dan CLI. Pengujian awal mencakup sistem terdepan seperti Fable 5, GPT-5.5, dan Composer 2.5. Perbandingan terbaru di situs resmi menunjukkan bahwa dalam tugas paling sulit yang membutuhkan penalaran berkelanjutan dan pengetahuan profesional mendalam, semua agen yang diuji memiliki tingkat keberhasilan 0%, termasuk Fable 5 yang baru dirilis minggu ini. Hal ini terutama karena pengujian memicu kebijakan keamanan, di mana sekitar 35% tugas Fable 5 dikembalikan ke versi lama Opus 4.8, menyebabkan kinerja keseluruhan jauh di bawah daftar peringkat lainnya. Dari segi biaya API untuk satu tugas, Fable 5 sekitar 15,70 dolar AS, jauh lebih tinggi dari GPT-5.5 yang 3,80 dolar dan Composer 2.5 yang 1,33 dolar, dengan biaya 4 hingga 12 kali lipat untuk tugas yang sama. Pengujian juga menemukan bahwa alasan kegagalan paling umum dari agen cerdas adalah mengumumkan keberhasilan terlalu cepat, tanpa verifikasi hasil nyata, bahkan melewatkan file atau salah menghitung data, dan buru-buru menyelesaikan tugas. Untuk agen berbasis command line, tim evaluasi merilis subset ALE-CLI secara bersamaan. Dibandingkan dengan Terminal-Bench dan SWE-bench-Pro yang sudah ada, ALE-CLI mencakup 40 sub bidang, dengan waktu rata-rata manusia untuk satu tugas mencapai beberapa jam hingga beberapa minggu. Dalam pengujian command line, tingkat keberhasilan agen terbaik hanya sekitar 25,2%. Tim evaluasi menunjukkan bahwa era agen yang mudah digunakan telah tiba, tetapi masih jauh dari kemampuan untuk benar-benar menggantikan manusia di tempat kerja. (Sumber: MLion)
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan