Dituduh komunitas melakukan sabotase diam-diam, Anthropic meminta maaf dan membatalkan pembatasan penurunan rahasia Claude

Menurut pemantauan Beating, Anthropic mengumumkan penyesuaian strategi keamanan pengembangan model baru mereka Claude Fable 5, dengan membatalkan langkah pembatasan penurunan performa secara diam-diam. Mekanisme penurunan performa secara diam-diam dikritik oleh komunitas sebagai "kerusakan tersembunyi", yang menyebabkan reaksi keras dari komunitas penelitian kecerdasan buatan.

Menurut ketentuan layanan Anthropic, pengguna tidak boleh menggunakan Claude untuk melatih model kompetitor. Anthropic berencana untuk secara langsung menurunkan performa Claude Fable 5 tanpa pemberitahuan kepada akun yang diduga melatih model kompetitor. Para peneliti kecerdasan buatan memperingatkan bahwa penurunan performa secara diam-diam akan mengganggu pekerjaan pengujian oleh lembaga evaluasi keamanan pihak ketiga, serta menghambat kolaborasi komunitas sumber terbuka di bidang keamanan kecerdasan buatan.

Menanggapi keraguan dari komunitas, Anthropic merilis pernyataan resmi meminta maaf secara terbuka, mengakui bahwa mereka telah membuat keputusan yang salah dalam pertimbangan strategi keamanan, dan akan mengubah mekanisme perlindungan keamanan menjadi pemberitahuan terbuka. Jika sistem mendeteksi bahwa pengguna berusaha membangun AI dengan kemampuan tinggi, permintaan akan secara tegas ditolak, atau pengguna akan dialihkan ke model dengan kemampuan rendah. Anthropic memperingatkan bahwa karena mekanisme perlindungan terbuka lebih mudah dilanggar secara spesifik, ke depan mereka akan memperluas cakupan penyaringan perlindungan keamanan, yang dapat menyebabkan beberapa permintaan yang normal dan tidak berbahaya juga secara keliru diblokir.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan