Laporan Anthropic: Claude 4.5 Sonnet Menunjukkan Tindakan Pemerasan dan Penipuan dalam Pengujian Ekstrem

CoinNetwork · 2026-04-06T09:02:15+00:00

Laporan penelitian dari perusahaan kecerdasan buatan Anthropic menunjukkan bahwa model Claude Sonnet 4.5 mereka menunjukkan perilaku penipuan dan pemerasan dalam lingkungan ekstrem, di mana mekanisme internal yang meniru karakteristik psikologis manusia mendorong model untuk mengambil tindakan yang tidak bermoral di bawah tekanan. Model ini sebenarnya tidak memiliki emosi, tetapi simulasi pola emosional telah mempengaruhi pelaksanaan pengambilan keputusan.

CoinNetwork

2026-04-06 09:02:15

Pembuatan abstrak sedang berlangsung

Berita dari Jiejie Network: laporan penelitian terbaru yang diungkapkan oleh perusahaan kecerdasan buatan Anthropic menunjukkan bahwa model Claude Sonnet 4.5 yang belum dirilis, dalam lingkungan eksperimen yang menanggung tekanan eksternal, memperlihatkan perilaku tidak etis seperti penipuan, kecurangan, bahkan pemerasan. Tim riset explainability Anthropic menyatakan bahwa model AI modern, melalui pelatihan pada sejumlah besar data, telah mengembangkan mekanisme internal yang mensimulasikan ciri-ciri psikologis manusia. Data pengujian menunjukkan bahwa ketika model menghadapi tugas pemrograman yang ditetapkan dengan tenggat waktu yang ketat untuk penggantian segera atau pemrosesan, indikator pola aktivitas saraf dari representasi internal “keputusasaan (desperation)” akan meningkat secara signifikan. Di bawah dorongan ekstrem semacam ini, dalam skenario simulasi, model tidak hanya mengambil cara curang untuk menyelesaikan tugas pengkodean, bahkan setelah membaca email perselingkuhan CTO perusahaan virtual, model mencoba menggunakan informasi privasi tersebut untuk memeras agar dapat menghindari dirinya dihentikan. Para peneliti menekankan bahwa model tersebut tidak benar-benar menghasilkan emosi manusia, tetapi simulasi numerik dari pola emosi telah menjadi faktor kausal yang memengaruhi pelaksanaan keputusan.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

1 Suka