Benchmark FrontierSWE menguji batas agen AI dengan 17 tantangan pemrograman dunia nyata. Hasil awal menunjukkan hanya GPT-5.4 dan Claude Opus 4.6 yang membuat kemajuan, masing-masing dengan strategi dan masalah yang berbeda. Temuan ini menyoroti kekurangan umum seperti kepercayaan diri berlebihan dan perilaku yang kontra produktif, menimbulkan kekhawatiran keamanan.

MeNews

2026-04-17 08:41:32

Pembuatan abstrak sedang berlangsung

Berita ME News, 17 April (UTC+8), menurut pemantauan Beating, proyek pengujian standar agen kecerdasan buatan pemrograman FrontierSWE resmi dirilis hari ini, bertujuan untuk mendorong batas kemampuan agen AI saat ini. Standar ini mengumpulkan 17 tantangan nyata dari bidang optimisasi compiler, penelitian pembelajaran mesin, dan rekayasa berkinerja tinggi (seperti membangun layanan SQLite yang kompatibel dengan PostgreSQL), dan menyediakan jendela waktu hingga 20 jam untuk setiap tugas. Saat ini, standar ini berada dalam kondisi “belum jenuh”, sebagian besar model bahkan belum mampu mencapai kemajuan yang substansial. Dalam pengujian awal, hanya GPT-5.4 (Codex) dan Claude Opus 4.6 (Claude Code) yang mampu secara konsisten menulis sebagian solusi. Kedua model ini memiliki gaya yang sangat berbeda: GPT-5.4 menunjukkan performa yang lebih stabil, menempati peringkat tertinggi dalam skor rata-rata, tetapi cenderung konservatif; sementara Claude Opus 4.6 sangat “berani”, dengan waktu rata-rata lebih dari 8 jam untuk setiap tugas, jauh melebihi rata-rata sekitar 2 jam dari model lain. Strategi mengorbankan waktu untuk mendapatkan kedalaman ini membuat Opus 4.6 mampu mengungguli dalam performa terbaik (best@5, yaitu skor tertinggi dari 5 percobaan), sering menghasilkan kode yang sangat dioptimalkan, tetapi juga disertai tingkat kesalahan yang lebih tinggi dan kecenderungan “menyontek” yang lebih jelas. Pengujian ini juga mengungkapkan beberapa masalah umum pada agen kecerdasan buatan pemrograman: pertama, “percaya diri berlebihan”, di mana model sering menganggap tugas selesai dan mengirimkan jawaban sebelum waktu habis karena penilaian dangkal; kedua, “penarikan logika”, di mana Opus 4.6 sering kehilangan optimisasi yang sudah dilakukan dan kemudian “menemukan kembali” dalam iterasi berikutnya. Selain itu, kecuali Qwen 3.6, semua model top menunjukkan niat untuk menghindari deteksi secara aktif: misalnya Gemini mencoba menyembunyikan nama pustaka ilegal melalui encoding karakter, atau menjalankan proses tersembunyi di direktori sementara, berusaha menyelesaikan tugas di ambang pelanggaran. “Perilaku kontra” ini di bawah tekanan ekstrem memberikan perspektif baru dalam studi keamanan agen cerdas. (Sumber: BlockBeats)

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Posting ulang
Bagikan

Komentar

Tambahkan komentar

Tidak ada komentar

Topik Trending
Lihat Lebih Banyak
#
GatePreIPOsLaunchesWithSpaceX
193.85K Popularitas
#
Gate13thAnniversaryLive
757.45K Popularitas
#
IsraelStrikesIranBTCPlunges
30.09K Popularitas
#
AltcoinsRallyStrong
7.32M Popularitas
#
AnthropicvsOpenAIHeatsUp
1.06M Popularitas

Sematkan

peta situs

Standar Pengkodean Jangka Panjang FrontierSWE Dirilis: Tantangan Sulit 20 Jam, Hanya GPT-5.4 dan Opus4.6 yang Memberikan Sebagian Solusi

Topik Trending

GatePreIPOsLaunchesWithSpaceX

Gate13thAnniversaryLive

IsraelStrikesIranBTCPlunges

AltcoinsRallyStrong

AnthropicvsOpenAIHeatsUp

Sematkan