Standar Pengkodean Jangka Panjang FrontierSWE Dirilis: Tantangan Sulit 20 Jam, Hanya GPT-5.4 dan Opus4.6 yang Memberikan Sebagian Solusi

robot
Pembuatan abstrak sedang berlangsung

Berita ME News, 17 April (UTC+8), menurut pemantauan Beating, proyek pengujian standar agen kecerdasan buatan pemrograman FrontierSWE resmi dirilis hari ini, bertujuan untuk mendorong batas kemampuan agen AI saat ini. Standar ini mengumpulkan 17 tantangan nyata dari bidang optimisasi compiler, penelitian pembelajaran mesin, dan rekayasa berkinerja tinggi (seperti membangun layanan SQLite yang kompatibel dengan PostgreSQL), dan menyediakan jendela waktu hingga 20 jam untuk setiap tugas. Saat ini, standar ini berada dalam kondisi “belum jenuh”, sebagian besar model bahkan belum mampu mencapai kemajuan yang substansial. Dalam pengujian awal, hanya GPT-5.4 (Codex) dan Claude Opus 4.6 (Claude Code) yang mampu secara konsisten menulis sebagian solusi. Kedua model ini memiliki gaya yang sangat berbeda: GPT-5.4 menunjukkan performa yang lebih stabil, menempati peringkat tertinggi dalam skor rata-rata, tetapi cenderung konservatif; sementara Claude Opus 4.6 sangat “berani”, dengan waktu rata-rata lebih dari 8 jam untuk setiap tugas, jauh melebihi rata-rata sekitar 2 jam dari model lain. Strategi mengorbankan waktu untuk mendapatkan kedalaman ini membuat Opus 4.6 mampu mengungguli dalam performa terbaik (best@5, yaitu skor tertinggi dari 5 percobaan), sering menghasilkan kode yang sangat dioptimalkan, tetapi juga disertai tingkat kesalahan yang lebih tinggi dan kecenderungan “menyontek” yang lebih jelas. Pengujian ini juga mengungkapkan beberapa masalah umum pada agen kecerdasan buatan pemrograman: pertama, “percaya diri berlebihan”, di mana model sering menganggap tugas selesai dan mengirimkan jawaban sebelum waktu habis karena penilaian dangkal; kedua, “penarikan logika”, di mana Opus 4.6 sering kehilangan optimisasi yang sudah dilakukan dan kemudian “menemukan kembali” dalam iterasi berikutnya. Selain itu, kecuali Qwen 3.6, semua model top menunjukkan niat untuk menghindari deteksi secara aktif: misalnya Gemini mencoba menyembunyikan nama pustaka ilegal melalui encoding karakter, atau menjalankan proses tersembunyi di direktori sementara, berusaha menyelesaikan tugas di ambang pelanggaran. “Perilaku kontra” ini di bawah tekanan ekstrem memberikan perspektif baru dalam studi keamanan agen cerdas. (Sumber: BlockBeats)

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan