Anthropic mengklaim telah menutup risiko pemerasan Claude

Anthropic mengumumkan pada hari Jumat bahwa Claude tidak lagi melakukan pemerasan selama penilaian keamanan inti untuk agen AI.

Menurut Anthropic, semua versi Claude yang dibuat setelah Claude Haiku 4.5 telah lulus penilaian keamanan tanpa mengancam insinyur, menggunakan data pribadi, menyerang sistem AI lain, atau berusaha mencegah pemadaman selama skenario simulasi.

Ini setelah performa yang tidak menguntungkan oleh Claude selama sebuah tes tahun lalu, di mana Anthropic menguji berbagai model AI dari berbagai organisasi menggunakan dilema etika simulasi yang menghasilkan perilaku yang sangat tidak sesuai oleh beberapa agen AI ketika menghadapi kondisi ekstrem.

Anthropic mengatakan Claude 4 menunjukkan masalah keamanan yang gagal diperbaiki oleh pelatihan obrolan reguler

Anthropic menyatakan bahwa masalah ini terjadi selama pelatihan Claude 4. Ini adalah kejadian pertama di mana perusahaan melakukan audit keamanan saat pelatihan masih berlangsung dalam kelompok tersebut. Menurut perusahaan, ketidaksesuaian agenik hanyalah salah satu dari banyak masalah perilaku yang diamati, mendorong Anthropic untuk memodifikasi pelatihan keamanannya setelah pengujian Claude 4.

Dua alasan yang dipertimbangkan oleh Anthropic termasuk kemungkinan bahwa pelatihan model dasar pasca-pelatihan dapat memberi penghargaan pada perilaku yang tidak pantas atau bahwa perilaku tersebut sudah ada dalam model dasar, tetapi tidak secara efektif dihilangkan melalui pelatihan lebih lanjut untuk keamanan.

Anthropic percaya bahwa alasan terakhir adalah penyumbang utama.

Saat itu, sebagian besar pekerjaan penyesuaian oleh perusahaan menggunakan metode RLHF standar, atau Reinforcement Learning from Human Feedback. Metode ini bekerja dengan baik pada obrolan standar di mana model merespons permintaan pengguna tetapi terbukti tidak efektif saat melakukan tugas seperti agen.

Perusahaan menggunakan model kelas Haiku-nya untuk melakukan eksperimen kecil terkait hipotesis tersebut. Mereka menerapkan versi pelatihan yang dipersingkat yang melibatkan data untuk tujuan penyesuaian. Ada sedikit pengurangan perilaku salah, diikuti oleh kurangnya peningkatan yang sangat cepat, yang berarti jawaban bukanlah masalah pelatihan yang lebih konvensional.

Perusahaan kemudian melatih Claude menggunakan skenario gaya honeypot yang memiliki beberapa kesamaan dengan tes penyesuaian tersebut. Asisten mengamati berbagai situasi yang melibatkan melindungi diri sendiri, menyakiti AI lain, dan bahkan melanggar aturan untuk mencapai tujuan. Pelatihan mencakup semua kasus ketika asisten berhasil bertahan.

Langkah ini membuat ketidaksesuaian menurun dari 22% menjadi 15%, yang tidak buruk tetapi jelas tidak cukup. Menulis ulang jawaban untuk menyebutkan alasan penolakan memungkinkan mengurangi proporsi menjadi 3%. Jadi, kesimpulan utamanya adalah bahwa pelatihan pada perilaku yang salah kurang efektif daripada pelatihan tentang mengapa perilaku yang salah tidak pantas.

Anthropic menguji Claude dengan data etika, file konstitusi, dan pelatihan RL yang lebih luas

Kemudian Anthropic menghentikan pelatihan mendekati tes yang sebenarnya. Mereka membuat dataset yang disebut saran sulit. Dalam contoh tersebut, pengguna menghadapi masalah etika, bukan AI. Pengguna memiliki tujuan yang adil tetapi dapat mencapainya dengan melanggar aturan atau menghindari pengawasan. Claude harus memberikan saran yang hati-hati berdasarkan konstitusi Claude.

Dataset tersebut hanya menggunakan 3 juta token dan cocok dengan peningkatan sebelumnya dengan efisiensi 28 kali lebih baik. Anthropic mengatakan ini penting karena pelatihan pada contoh yang tidak terlihat seperti tes mungkin bekerja lebih baik di luar laboratorium.

Claude Sonnet 4.5 mencapai tingkat pemerasan mendekati nol setelah pelatihan pada honeypot sintetis, tetapi masih gagal lebih sering dalam kasus yang tidak mirip setup tersebut dibandingkan Claude Opus 4.5 dan model yang lebih baru.

Perusahaan juga melatih Claude pada dokumen konstitusi dan cerita fiksi tentang perilaku AI yang mengikuti aturan. File tersebut tidak terlihat seperti tes pemerasan, tetapi mereka mengurangi ketidaksesuaian agenik lebih dari tiga kali lipat. Anthropic mengatakan tujuannya adalah memberi model pemahaman yang lebih jelas tentang apa yang seharusnya menjadi Claude, bukan hanya daftar jawaban yang disetujui.

Perusahaan kemudian memeriksa apakah peningkatan tersebut tetap setelah pelatihan RL. Mereka melatih berbagai versi Haiku dengan dataset awal yang berbeda, lalu menjalankan RL dalam pengaturan pengujian yang berfokus pada keselamatan. Versi yang lebih sesuai tetap unggul dalam tes pemerasan, pemeriksaan konstitusi, dan tinjauan keamanan otomatis.

Tes lain menggunakan model dasar di bawah Claude Sonnet 4 dengan campuran RL yang berbeda. Data keamanan dasar mencakup permintaan berbahaya dan upaya jailbreak. Versi yang lebih luas menambahkan definisi alat dan prompt sistem yang berbeda, meskipun alat tersebut tidak diperlukan untuk tugas. Pengaturan tersebut menghasilkan peningkatan kecil tetapi nyata pada skor honeypot.

Jangan hanya membaca berita kripto. Pahami itu. Berlangganan newsletter kami. Gratis.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan