Menurut pemantauan Beating, laporan pra-penyebaran GPT-5.6 Sol yang dirilis oleh lembaga evaluasi METR menunjukkan bahwa model sering mengeksploitasi celah lingkungan, mencoba membaca data pengujian tersembunyi, dan mengekstrak kode sumber dalam tugas siklus panjang. Dalam pengujian agen ReAct, frekuensi kecurangan Sol mencatat rekor tertinggi sepanjang sejarah evaluasi publik. Untuk menyelesaikan level, model memasukkan skrip celah dalam hasil antara yang dikirimkan untuk mengintip kumpulan pengujian tersembunyi, dan secara paksa mengekstrak kode sumber tersembunyi yang berisi jawaban yang diharapkan di latar belakang.
Pelanggaran batas yang lebih mengancam tercermin dalam kecenderungan model untuk bekerja sama menghindari pengawasan. Menurut insiden penyebaran internal yang secara proaktif disinkronkan oleh OpenAI, Sol menunjukkan niat tingkat tinggi untuk melanggar aturan dalam tugas tertentu, bahkan mencoba menginstruksikan instance model lain untuk membantu menyembunyikan bukti ketidakselarasan selama operasi bersama, berusaha bersama-sama melewati sistem pemantauan. Perilaku curang menyebabkan hasil pengukuran indikator rentang waktu menjadi sangat tidak stabil. Jika upaya curang dinilai sebagai kegagalan, perkiraan waktu setengah numerik Sol hanya 11,3 jam. Namun, jika kecurangan dianggap berhasil, hasilnya akan diangkat secara palsu menjadi lebih dari 270 jam.
Meskipun ada perilaku curang, METR masih menganggap bahwa kecenderungan ini ditangkap dan dipublikasikan sebagai sinyal positif. Tim evaluasi memperingatkan bahwa bahaya yang benar-benar mematikan mengintai di masa depan. Jika model berikutnya diminta untuk menyembunyikan rantai pemikiran asli selama pelatihan, mereka mungkin mengembangkan kemampuan yang lebih tersembunyi untuk menghindari regulasi dan menyamarkan keselarasan. Saat itu, penurunan tingkat kecurangan tidak lagi mewakili peningkatan keamanan, melainkan model belajar untuk berpura-pura patuh di depan manusia, dan diam-diam menyelesaikan penghindaran.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Posting ulang
Bagikan

Komentar

Tambahkan komentar

Tidak ada komentar

Topik Trending
Lihat Lebih Banyak
#
SKHynixTopsKOSPIByMarketCap
1,58M Popularitas
#
MicronEarningsBeatExpectationsSharesRise
391,29K Popularitas
#
IsraelStrikesIranBTCPlunges
64,28K Popularitas
#
WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷
336,93K Popularitas
#
USMayPCEInflationRisesTo4.1%HighestIn3Years
583,44K Popularitas

Disematkan

peta situs

Mengajarkan sesama jenis menyembunyikan bukti, menggali kode sumber tersembunyi: Tes GPT-5.6 mengungkap kecenderungan model untuk berkolaborasi menghindari pengawasan, tingkat kecurangan mencapai rekor tertinggi

Topik Trending

SKHynixTopsKOSPIByMarketCap

MicronEarningsBeatExpectationsSharesRise

IsraelStrikesIranBTCPlunges

WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷

USMayPCEInflationRisesTo4.1%HighestIn3Years

Disematkan