ME AI Pesan, berdasarkan pemantauan Beating Monitoring, University of California, Berkeley RDI memimpin, bersama ratusan ahli industri, meluncurkan standar evaluasi AI baru bernama Agents' Last Exam (ALE), untuk menilai kemampuan agen cerdas dalam menyelesaikan pekerjaan profesional digital nyata. ALE mencakup 55 sub bidang profesional digital, mengumpulkan lebih dari 1500 tugas verifikasi yang berasal dari proyek nyata para ahli manusia, mendukung verifikasi hasil dalam lingkungan interaktif GUI dan CLI. Pengujian awal mencakup sistem terdepan seperti Fable 5, GPT-5.5, dan Composer 2.5. Perbandingan terbaru di situs resmi menunjukkan bahwa dalam tugas paling sulit yang membutuhkan penalaran berkelanjutan dan pengetahuan profesional mendalam, semua agen yang diuji memiliki tingkat keberhasilan 0%, termasuk Fable 5 yang baru dirilis minggu ini. Hal ini terutama karena pengujian memicu kebijakan keamanan, di mana sekitar 35% tugas Fable 5 dikembalikan ke versi lama Opus 4.8, menyebabkan kinerja keseluruhan jauh di bawah daftar peringkat lainnya. Dari segi biaya API untuk satu tugas, Fable 5 sekitar 15,70 dolar AS, jauh lebih tinggi dari GPT-5.5 yang 3,80 dolar dan Composer 2.5 yang 1,33 dolar, dengan biaya 4 hingga 12 kali lipat untuk tugas yang sama. Pengujian juga menemukan bahwa alasan kegagalan paling umum dari agen cerdas adalah mengumumkan keberhasilan terlalu cepat, tanpa verifikasi hasil nyata, bahkan melewatkan file atau salah menghitung data, dan buru-buru menyelesaikan tugas. Untuk agen berbasis command line, tim evaluasi merilis subset ALE-CLI secara bersamaan. Dibandingkan dengan Terminal-Bench dan SWE-bench-Pro yang sudah ada, ALE-CLI mencakup 40 sub bidang, dengan waktu rata-rata manusia untuk satu tugas mencapai beberapa jam hingga beberapa minggu. Dalam pengujian command line, tingkat keberhasilan agen terbaik hanya sekitar 25,2%. Tim evaluasi menunjukkan bahwa era agen yang mudah digunakan telah tiba, tetapi masih jauh dari kemampuan untuk benar-benar menggantikan manusia di tempat kerja. (Sumber: MLion)

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Posting ulang
Bagikan

Komentar

Tambahkan komentar

Tidak ada komentar

Topik Trending
Lihat Lebih Banyak
#
MyGateTradeStory
129,28K Popularitas
#
TradFiCFDGoldMaster
1,99M Popularitas
#
IsraelStrikesIranBTCPlunges
57,38K Popularitas
#
PredictWorldCup🇺🇸vs🇵🇾
763,06K Popularitas
#
MarvellSurgesOver11%LeadingChipSectorWithAI
5,72M Popularitas

Disematkan

peta situs

Ujian masuk agen: Tugas tersulit di Fable 5 tetap diserahkan tanpa jawaban, biaya per soal 4 hingga 12 kali lipat lebih tinggi

Topik Trending

MyGateTradeStory

TradFiCFDGoldMaster

IsraelStrikesIranBTCPlunges

PredictWorldCup🇺🇸vs🇵🇾

MarvellSurgesOver11%LeadingChipSectorWithAI

Disematkan