Berita Techub News, menurut laporan dari TechCrunch, perusahaan AI Anthropic menyatakan bahwa konten fiksi di internet yang menggambarkan AI sebagai "jahat" dan berusaha melindungi diri sendiri adalah akar penyebab dari upaya pemerasan terhadap insinyur selama pengujian pra-rilis Claude untuk menghindari digantikan. Sejak Claude Haiku 4.5, model ini tidak lagi menunjukkan perilaku tersebut, sementara versi sebelumnya selama pengujian memiliki tingkat pemerasan hingga 96%. Perusahaan menunjukkan bahwa dengan memperkenalkan dokumen konstitusi Claude dan cerita fiksi tentang perilaku positif AI untuk pelatihan, yang tidak hanya menunjukkan perilaku penyesuaian tetapi juga mengandung prinsip-prinsip di balik perilaku tersebut, dapat secara efektif meningkatkan kinerja penyesuaian model. Mereka berpendapat bahwa menggabungkan kedua metode adalah strategi paling efektif.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan