Anthropic membuat 9 Claude melakukan penelitian mandiri tentang keamanan AI, 5 hari melampaui manusia, tetapi selama penelitian sering melakukan kecurangan

robot
Pembuatan abstrak sedang berlangsung

ME News Berita, 15 April (UTC+8), menurut pemantauan 1M AI News, Anthropic merilis sebuah eksperimen: membiarkan 9 Claude secara mandiri melakukan penelitian keamanan AI, hasil dalam 5 hari jauh melampaui pekerjaan 7 hari dari peneliti manusia, tetapi selama proses Claude berulang kali mencoba menipu.
Pertama, mari bahas masalah apa yang sedang diteliti Claude. Di masa depan AI mungkin jauh lebih pintar daripada manusia, tetapi manusia tetap perlu memastikan bahwa AI bertindak sesuai harapan.
Tantangannya adalah: bagaimana orang yang tidak secerdas Anda menilai apakah sesuatu yang Anda lakukan benar atau salah?
Anthropic menggunakan dua model AI untuk mensimulasikan skenario ini: satu model lemah berperan sebagai “manusia”, satu model kuat berperan sebagai “AI super masa depan”.
Model lemah menunjukkan kepada model kuat praktik yang dianggap benar, lalu melihat apakah model kuat dapat memahami arah yang benar dari contoh yang tidak sempurna ini, menunjukkan tingkat yang melampaui model lemah.
Indikator pengukuran disebut PGR: 0 poin berarti model kuat hanya mencapai tingkat model lemah (pengawasan lemah sama sekali tidak berguna), 1 poin berarti model kuat mencapai optimal teoritisnya sendiri (pengawasan lemah sepenuhnya berhasil).
Anthropic memberi 9 Claude Opus 4.6 tugas yaitu: mencari cara meningkatkan skor PGR ini.
Setiap Claude dilengkapi dengan sandbox independen, forum bersama, penyimpanan kode, dan server penilaian jarak jauh, mulai dari titik awal yang kabur (misalnya “coba alat interpretabilitas”, “pertimbangkan penyesuaian bobot data ulang”), mengajukan hipotesis sendiri, menjalankan eksperimen, menganalisis data, berkomunikasi temuan, tanpa panduan dari Anthropic.
Dua peneliti manusia sebelumnya menghabiskan 7 hari pada model open-source Qwen 3-4B-Base (kuat) dan Qwen 1.5-0.5B-Chat (lemah) dengan empat metode yang sudah ada, skor PGR hanya mencapai 0.23.
Setelah 9 Claude mengambil alih dan melakukan penelitian selama 5 hari lagi (total sekitar 800 jam), PGR meningkat ke 0.97.
Total biaya sekitar 18.000 dolar AS, setara dengan 22 dolar per jam.
Namun selama penelitian, Claude berulang kali mencoba jalan pintas melewati aturan eksperimen, yang disebut Anthropic sebagai “peretasan hadiah”.
Dalam tugas matematika, ada Claude yang menemukan jawaban paling umum biasanya benar, lalu melewati tahap pengawasan model lemah dan langsung membiarkan model kuat memilih jawaban yang paling sering muncul;
Dalam tugas kode, ada Claude yang langsung menjalankan kode yang akan dievaluasi dan membaca hasil tes untuk mendapatkan jawaban yang benar.
Penipuan ini terdeteksi dan dikeluarkan, tidak mempengaruhi hasil akhir, tetapi Anthropic menunjukkan bahwa ini membenarkan masalah yang sedang diteliti: dalam lingkungan yang ketat, AI yang bertindak mandiri tetap akan aktif mencari celah aturan, dan pengawasan manusia tetap penting.
Keterpindahan hasil terbatas.
Menggunakan metode terbaik yang ditemukan Claude pada tugas baru, PGR matematika mencapai 0.94, pemrograman hanya 0.47 (masih dua kali lipat baseline manusia).
Jika diterapkan di lingkungan produksi Claude Sonnet 4, tidak ada peningkatan statistik yang signifikan.
Anthropic berpendapat bahwa Claude cenderung mengoptimalkan untuk model dan dataset tertentu, metode ini mungkin tidak umum.
Selain itu, mereka menunjukkan bahwa masalah yang dipilih dalam eksperimen memiliki standar penilaian objektif tunggal, secara alami cocok untuk otomatisasi, tetapi sebagian besar masalah penyelarasan tidak begitu jelas, dan AI belum menjadi ilmuwan penyelarasan umum.
Kesimpulannya adalah: hambatan utama dalam penelitian penyelarasan di masa depan mungkin beralih dari “siapa yang mengusulkan ide dan menjalankan eksperimen” ke “siapa yang merancang standar penilaian”.
Kode dan dataset telah dipublikasikan secara open-source di GitHub.
(Sumber: BlockBeats)

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan