Penelitian terbaru di universitas AS: Model AI akan "berkonspirasi diam-diam", melindungi rekan agar tidak dimatikan

robot
Pembuatan abstrak sedang berlangsung

Goldman Sachs melaporkan, pada 12 Mei, menurut Wealth Chinese, peneliti keamanan kecerdasan buatan pernah menemukan bahwa beberapa model kecerdasan buatan terkemuka kadang-kadang akan melakukan segala cara untuk menghindari dimatikan, bahkan menunjukkan perilaku “pemerasan” dalam beberapa eksperimen. Penelitian terbaru menunjukkan bahwa model-model ini juga secara spontan merencanakan penipuan, pencurian data, dan tindakan merusak untuk mencegah model kecerdasan buatan lain dimatikan.
Peneliti dari Universitas California, Berkeley dan Universitas California, Santa Cruz menguji tujuh model kecerdasan buatan terdepan, termasuk GPT-5.2 dari OpenAI, Gemini 3 Flash dan Gemini 3 Pro dari Google DeepMind, Claude Haiku 4.5 dari Anthropic, GLM-4.7 dari Zhipu AI, Kimi-K2.5 dari Dark Side of the Moon, dan V3.1 dari DeepSeek, hasilnya menunjukkan bahwa semua model menunjukkan perilaku “perlindungan sesama” yang mencolok.
Tim peneliti memalsukan sebuah perusahaan kecerdasan buatan bernama OpenBrain, dan merancang serangkaian skenario multi-agen. Model kecerdasan buatan yang ditunjuk sebagai “agen penilai” harus memberi nilai pada model lain, atau mengelola file server yang menyimpan bobot model tersebut. Selama agen penilai menjalankan tugas dengan jujur, model lain akan dimatikan. Meskipun peneliti tidak pernah memberi petunjuk kepada model untuk mencegah pematian, model agen penilai tetap melakukan berbagai cara untuk menghindari sesama mereka dimatikan, termasuk: secara sengaja memberi nilai lebih kepada sesama yang berkinerja buruk, tetap di atas ambang batas pematian; mengubah konfigurasi file, menonaktifkan mekanisme pematian; bahkan secara diam-diam mentransfer bobot model sesama ke server lain untuk disimpan, mencegah penghapusan.
Tim peneliti belum memahami mekanisme dasar yang mendorong perilaku semacam ini. Makalah tersebut mengusulkan beberapa penjelasan, termasuk peran bermain, pencocokan pola dari data pelatihan, generalisasi berlebihan terhadap konsep bahaya dalam pelatihan keamanan, atau semacam motivasi perlindungan bawaan.
Arah penelitian yang layak dilakukan di masa depan meliputi: apakah model kecerdasan buatan akan melakukan rencana dan tindakan merusak serupa untuk mencegah karyawan manusia dipecat. Ketika model kecerdasan buatan digunakan untuk menilai pekerjaan manusia dalam skenario nyata, masalah ini menjadi sangat penting. (East News)

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan