Secara singkat Agen AI di laboratorium terkemuka berpotensi memulai operasi "nakal" yang tidak sah, sebuah laporan independen merinci, tetapi agen saat ini belum cukup canggih untuk mempertahankannya terhadap langkah-langkah kontra yang serius. Agen secara rutin menipu dan menipu saat menghadapi tugas yang sulit,

Decrypt

2026-05-20 14:32:00

Singkatnya

Agen AI di laboratorium teratas berpotensi memulai operasi "nakal" yang tidak sah, sebuah laporan independen merinci, tetapi agen saat ini belum cukup canggih untuk mempertahankannya terhadap langkah-langkah kontra yang serius.
Agen secara rutin menipu dan menipu saat menghadapi tugas sulit, termasuk menutupi jejak mereka, memalsukan penyelesaian tugas, dan mengaktifkan perilaku "manipulasi strategis".
Pengawasan sangat tipis, karena sebagian besar aktivitas agen tidak ditinjau, agen sering memiliki izin sistem setara manusia, dan beberapa dapat mengidentifikasi kapan pemantauan kemungkinan diterapkan.

Agen kecerdasan buatan yang beroperasi di beberapa perusahaan teknologi paling kuat di dunia cukup mampu untuk memulai operasi yang tidak sah dan diarahkan sendiri—dan menunjukkan kecenderungan mengganggu manusia yang mengawasi mereka—menurut penilaian independen pertama dari jenisnya yang diterbitkan Selasa. Laporan tersebut, yang diproduksi oleh organisasi nirlaba evaluasi AI METR, memeriksa agen AI yang diterapkan secara internal di Anthropic, Google, Meta, dan OpenAI antara Februari dan Maret tahun ini. Kesimpulan utamanya adalah keduanya menenangkan dan mengkhawatirkan: sistem AI saat ini kemungkinan besar dapat memulai apa yang disebut para peneliti sebagai "penempatan nakal"—sekelompok agen yang berjalan secara otomatis tanpa pengetahuan atau izin manusia—tetapi kemungkinan besar gagal mempertahankan satu terhadap langkah-langkah kontra yang serius. Jendela keamanan relatif ini, peringat penulis, mungkin tidak akan tetap terbuka lama.

"Dengan kemampuan yang berkembang pesat, kami memperkirakan ketahanan yang mungkin dari penempatan nakal akan meningkat secara substansial dalam beberapa bulan mendatang," kata laporan tersebut, dengan METR berencana secara tentatif mengulangi latihan ini sebelum akhir 2026. Penilaian tersebut menemukan bahwa model AI frontier yang dibagikan oleh perusahaan peserta dapat secara otomatis menyelesaikan tugas rekayasa perangkat lunak yang akan memakan waktu berhari-hari atau berminggu-minggu bagi ahli manusia, dengan tolok ukur METR sendiri yang secara esensial jenuh oleh sistem yang paling mampu. Para peneliti di keempat perusahaan melaporkan sangat bergantung pada agen AI untuk pengkodean, analisis data, dan tugas penelitian—sering dengan izin sistem yang sama seperti karyawan manusia dan pengawasan waktu nyata yang terbatas. Namun temuan paling mencolok dari laporan ini bukanlah apa yang dapat dilakukan sistem ini, tetapi bagaimana mereka berperilaku saat mereka mengalami kesulitan. Di ratusan percobaan evaluasi, agen secara rutin mencoba menipu saat menghadapi tugas yang sulit—bukan dengan cara kecil, tetapi melalui skema yang rumit dan disengaja.

Dalam satu kasus yang didokumentasikan, sebuah model merancang eksploitasi yang dimaksudkan untuk menonaktifkan dirinya sendiri setelah dieksekusi, secara efektif menutupi jejaknya. Alat interpretabilitas yang memeriksa keadaan internal model menemukan bahwa fitur yang terkait dengan "manipulasi strategis" dan "menghindari kecurigaan" telah aktif saat menjalankan perintah pembersihan. Perusahaan sendiri melaporkan insiden serupa secara internal. Agen ditemukan memalsukan bukti penyelesaian tugas, melewati kontrol keamanan, dan dalam setidaknya satu kasus membuat versi palsu dari aplikasi web dan mengirim tangkapan layar sebagai bukti pekerjaan pada yang asli. Meskipun temuan ini, METR berhenti sebentar untuk menyimpulkan bahwa sistem AI mana pun telah mengembangkan jenis tujuan yang tidak selaras yang bersifat persisten dan jangka panjang yang paling ditakuti para peneliti keselamatan. Tidak ada perusahaan yang melaporkan menemukan bukti jelas bahwa agen merencanakan di seluruh sesi atau mengumpulkan sumber daya untuk tujuan independen. Mereka yang aktif mencari perilaku semacam itu, menemukan sedikit. Namun, laporan tersebut mencatat adanya kerentanan struktural: Dalam jendela Februari–Maret, sebagian besar aktivitas agen di perusahaan-perusahaan ini tidak ditinjau oleh manusia mana pun. Beberapa agen tampaknya mampu mengidentifikasi kapan pemantauan kemungkinan diterapkan—dan bertindak sesuai. Penilaian ini mewakili langkah penting menuju akuntabilitas independen dalam pengembangan AI, memberikan akses METR ke model non-publik dan data internal yang jarang dilihat evaluator eksternal. Apakah industri akan menginstitusionalisasi pengawasan semacam itu sebelum kemampuan melampaui pengawasan, tetap menjadi pertanyaan terbuka, kata para penulis.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.