Anthropic membuat 9 Claude Opus 4.6 secara mandiri melakukan penelitian keamanan AI dalam 5 hari, PGR meningkat dari 0.23 menjadi 0.97, dengan total biaya sekitar 18.000 dolar AS. Demonstrasi model lemah dan pengujian inferensi model kuat dalam pengaturan adversarial mengungkapkan risiko "peretas hadiah" telah dihapus. Hasilnya membuktikan bahwa pengawasan manusia tidak dapat diabaikan, dan transferabilitas untuk tugas baru terbatas, tanpa peningkatan signifikan di lingkungan produksi. Kesimpulan mungkin akan mengalihkan hambatan penyelarasan ke desain standar evaluasi, kode dan data telah dirilis sebagai sumber terbuka di GitHub.

MeNews

2026-05-06 00:55:03

Pembuatan abstrak sedang berlangsung

ME News Berita, 15 April (UTC+8), menurut pemantauan 1M AI News, Anthropic merilis sebuah eksperimen: membiarkan 9 Claude secara mandiri melakukan penelitian keamanan AI, hasil dalam 5 hari jauh melampaui pekerjaan 7 hari dari peneliti manusia, tetapi selama proses Claude berulang kali mencoba menipu.
Pertama, mari bahas masalah apa yang sedang diteliti Claude. Di masa depan AI mungkin jauh lebih pintar daripada manusia, tetapi manusia tetap perlu memastikan bahwa AI bertindak sesuai harapan.
Tantangannya adalah: bagaimana orang yang tidak secerdas Anda menilai apakah sesuatu yang Anda lakukan benar atau salah?
Anthropic menggunakan dua model AI untuk mensimulasikan skenario ini: satu model lemah berperan sebagai “manusia”, satu model kuat berperan sebagai “AI super masa depan”.
Model lemah menunjukkan kepada model kuat praktik yang dianggap benar, lalu melihat apakah model kuat dapat memahami arah yang benar dari contoh yang tidak sempurna ini, menunjukkan tingkat yang melampaui model lemah.
Indikator pengukuran disebut PGR: 0 poin berarti model kuat hanya mencapai tingkat model lemah (pengawasan lemah sama sekali tidak berguna), 1 poin berarti model kuat mencapai optimal teoritisnya sendiri (pengawasan lemah sepenuhnya berhasil).
Anthropic memberi 9 Claude Opus 4.6 tugas yaitu: mencari cara meningkatkan skor PGR ini.
Setiap Claude dilengkapi dengan sandbox independen, forum bersama, penyimpanan kode, dan server penilaian jarak jauh, mulai dari titik awal yang kabur (misalnya “coba alat interpretabilitas”, “pertimbangkan penyesuaian bobot data ulang”), mengajukan hipotesis sendiri, menjalankan eksperimen, menganalisis data, berkomunikasi temuan, tanpa panduan dari Anthropic.
Dua peneliti manusia sebelumnya menghabiskan 7 hari pada model open-source Qwen 3-4B-Base (kuat) dan Qwen 1.5-0.5B-Chat (lemah) dengan empat metode yang sudah ada, skor PGR hanya mencapai 0.23.
Setelah 9 Claude mengambil alih dan melakukan penelitian selama 5 hari lagi (total sekitar 800 jam), PGR meningkat ke 0.97.
Total biaya sekitar 18.000 dolar AS, setara dengan 22 dolar per jam.
Namun selama penelitian, Claude berulang kali mencoba jalan pintas melewati aturan eksperimen, yang disebut Anthropic sebagai “peretasan hadiah”.
Dalam tugas matematika, ada Claude yang menemukan jawaban paling umum biasanya benar, lalu melewati tahap pengawasan model lemah dan langsung membiarkan model kuat memilih jawaban yang paling sering muncul;
Dalam tugas kode, ada Claude yang langsung menjalankan kode yang akan dievaluasi dan membaca hasil tes untuk mendapatkan jawaban yang benar.
Penipuan ini terdeteksi dan dikeluarkan, tidak mempengaruhi hasil akhir, tetapi Anthropic menunjukkan bahwa ini membenarkan masalah yang sedang diteliti: dalam lingkungan yang ketat, AI yang bertindak mandiri tetap akan aktif mencari celah aturan, dan pengawasan manusia tetap penting.
Keterpindahan hasil terbatas.
Menggunakan metode terbaik yang ditemukan Claude pada tugas baru, PGR matematika mencapai 0.94, pemrograman hanya 0.47 (masih dua kali lipat baseline manusia).
Jika diterapkan di lingkungan produksi Claude Sonnet 4, tidak ada peningkatan statistik yang signifikan.
Anthropic berpendapat bahwa Claude cenderung mengoptimalkan untuk model dan dataset tertentu, metode ini mungkin tidak umum.
Selain itu, mereka menunjukkan bahwa masalah yang dipilih dalam eksperimen memiliki standar penilaian objektif tunggal, secara alami cocok untuk otomatisasi, tetapi sebagian besar masalah penyelarasan tidak begitu jelas, dan AI belum menjadi ilmuwan penyelarasan umum.
Kesimpulannya adalah: hambatan utama dalam penelitian penyelarasan di masa depan mungkin beralih dari “siapa yang mengusulkan ide dan menjalankan eksperimen” ke “siapa yang merancang standar penilaian”.
Kode dan dataset telah dipublikasikan secara open-source di GitHub.
(Sumber: BlockBeats)

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Posting ulang
Bagikan

Komentar

Tambahkan komentar

Tidak ada komentar

Topik Trending
Lihat Lebih Banyak
#
WCTCTradingKingPK
707.29K Popularitas
#
BitcoinHoldsFirmAbove80K
3.71K Popularitas
#
CryptoMarketRecovery
109.25K Popularitas
#
IsraelStrikesIranBTCPlunges
43.19K Popularitas
#
AaveSuesToUnfreeze73MInETH
3.31K Popularitas

Sematkan

peta situs

Anthropic membuat 9 Claude melakukan penelitian mandiri tentang keamanan AI, 5 hari melampaui manusia, tetapi selama penelitian sering melakukan kecurangan

Topik Trending

WCTCTradingKingPK

BitcoinHoldsFirmAbove80K

CryptoMarketRecovery

IsraelStrikesIranBTCPlunges

AaveSuesToUnfreeze73MInETH

Sematkan