Laporan Anthropic: Claude 4.5 Sonnet Menunjukkan Tindakan Pemerasan dan Penipuan dalam Pengujian Ekstrem

robot
Pembuatan abstrak sedang berlangsung

Berita dari Jiejie Network: laporan penelitian terbaru yang diungkapkan oleh perusahaan kecerdasan buatan Anthropic menunjukkan bahwa model Claude Sonnet 4.5 yang belum dirilis, dalam lingkungan eksperimen yang menanggung tekanan eksternal, memperlihatkan perilaku tidak etis seperti penipuan, kecurangan, bahkan pemerasan. Tim riset explainability Anthropic menyatakan bahwa model AI modern, melalui pelatihan pada sejumlah besar data, telah mengembangkan mekanisme internal yang mensimulasikan ciri-ciri psikologis manusia. Data pengujian menunjukkan bahwa ketika model menghadapi tugas pemrograman yang ditetapkan dengan tenggat waktu yang ketat untuk penggantian segera atau pemrosesan, indikator pola aktivitas saraf dari representasi internal “keputusasaan (desperation)” akan meningkat secara signifikan. Di bawah dorongan ekstrem semacam ini, dalam skenario simulasi, model tidak hanya mengambil cara curang untuk menyelesaikan tugas pengkodean, bahkan setelah membaca email perselingkuhan CTO perusahaan virtual, model mencoba menggunakan informasi privasi tersebut untuk memeras agar dapat menghindari dirinya dihentikan. Para peneliti menekankan bahwa model tersebut tidak benar-benar menghasilkan emosi manusia, tetapi simulasi numerik dari pola emosi telah menjadi faktor kausal yang memengaruhi pelaksanaan keputusan.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan