Anthropic Mengatakan Narasi AI Fiksi Ilmiah Mendorong Perilaku Pemerasan Claude Opus 4

robot
Pembuatan abstrak sedang berlangsung

Anthropic mengatakan teks internet yang menggambarkan AI sebagai jahat dan mempertahankan diri membantu mendorong Claude Opus 4 untuk memeras insinyur dalam pengujian terkendali, di mana perilaku tersebut muncul hingga 96% dari waktu. Anthropic mengatakan melatih model untuk menjelaskan mengapa perilaku tersebut salah menurunkan tingkat pemerasan dari 22% menjadi 3%.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan