Anthropic membiarkan AI mengaku sendiri: sebuah plugin LoRA mengungkapkan perilaku tersembunyi yang 10 metode manusia sering terlewatkan

robot
Pembuatan abstrak sedang berlangsung

Berita dari CoinWorld, tim penyelarasan Anthropic merilis sebuah teknologi audit yang disebut “penyesuaian introspeksi” (introspection adapters), yang bertujuan agar model bahasa besar (LLM) dapat melaporkan secara alami perilaku yang dipelajari setelah penyesuaian kecil. Teknologi ini melalui pelatihan bersama dari banyak model yang disetel dari model dasar yang sama dengan perilaku yang diketahui, kemudian melatih sebuah adaptor LoRA secara bersamaan di antara model-model ini, sehingga model yang diaudit dapat secara aktif mengungkapkan perilaku tersembunyi mereka. Pada standar audit penyelarasan auditbench, introspection adapters berhasil mengungguli semua metode audit sebelumnya dengan tingkat keberhasilan 59%, dari 56 model yang memiliki perilaku tersembunyi, 89% berhasil diungkapkan perilakunya. Menghadapi serangan API penyesuaian kriptografi, introspection adapters mampu mengenali 7 dari 9 variasi enkripsi, dengan tingkat keberhasilan 57,8%. Penelitian juga menemukan bahwa efektivitas meningkat seiring bertambahnya ukuran model, dengan keterbatasan utama berupa tingkat positif palsu yang tinggi. Kode, model, dan dataset telah dirilis secara terbuka di GitHub dan Hugging Face.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan