Dituduh komunitas melakukan sabotase diam-diam, Anthropic meminta maaf dan membatalkan pembatasan penurunan rahasia Claude

robot
Pembuatan abstrak sedang berlangsung
ME AI Pesan, menurut pemantauan Beating, Anthropic mengumumkan penyesuaian strategi keamanan pengembangan model baru mereka Claude Fable 5, membatalkan langkah pembatasan penurunan performa secara diam-diam. Mekanisme penurunan diam-diam ini dikritik oleh komunitas sebagai "kerusakan tersembunyi", yang menyebabkan reaksi keras dari komunitas penelitian kecerdasan buatan. Berdasarkan ketentuan layanan Anthropic, pengguna tidak boleh menggunakan Claude untuk melatih model kompetitif. Anthropic berencana untuk secara langsung menurunkan performa Claude Fable 5 tanpa pemberitahuan kepada akun yang diduga melatih model kompetitif. Para peneliti kecerdasan buatan memperingatkan bahwa penurunan performa secara diam-diam akan mengganggu pekerjaan pengujian dari lembaga evaluasi keamanan pihak ketiga, serta menghambat kolaborasi komunitas sumber terbuka di bidang keamanan kecerdasan buatan. Menanggapi keraguan dari komunitas, Anthropic merilis pernyataan resmi meminta maaf, mengakui bahwa mereka telah membuat keputusan yang salah dalam pertimbangan strategi keamanan, dan akan mengubah mekanisme perlindungan keamanan menjadi pemberitahuan terbuka. Jika sistem mendeteksi bahwa pengguna berusaha membangun AI dengan kemampuan tinggi, permintaan akan secara tegas ditolak, atau pengguna akan dialihkan ke model dengan kemampuan rendah. Anthropic memperingatkan bahwa karena mekanisme perlindungan terbuka lebih mudah dilanggar secara targeted, ke depan mereka akan memperluas cakupan penyaringan perlindungan keamanan, yang dapat menyebabkan beberapa permintaan yang normal dan tidak berbahaya juga secara keliru diblokir. (Sumber: BlockBeats)
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan