Para peneliti mengusulkan metode rekayasa fitur dengan mengendalikan vektor intervensi untuk mempengaruhi perilaku model

robot
Pembuatan abstrak sedang berlangsung

Berita ME: Pada 4 April (UTC+8), baru-baru ini, sebuah metode penelitian bernama “representation engineering” diajukan, dengan tujuan menyediakan bagi model AI cara transparansi dan kontrol dari atas ke bawah. Inti dari metode ini adalah menghitung sebuah “vector kontrol”, yang dapat dibaca saat inferensi model atau ditambahkan ke nilai aktivasi model untuk menjelaskan atau mengendalikan perilaku model; seluruh proses tidak bergantung pada prompt engineering atau fine-tuning model. Para peneliti mengeksplorasi penerapan vector kontrol untuk mensimulasikan karakteristik seperti “keadaan halusinogen”, “kemalasan”, dan “ketekunan”, serta merilis paket alat terkait di PyPI.

Vector kontrol adalah sekumpulan vektor (satu per lapisan). Dengan menerapkannya pada hidden state model, outputnya dapat diubah secara langsung. Misalnya, ketika sebuah “vektor bahagia” diterapkan pada model Mistral-7B-Instruct, jawaban untuk pertanyaan “Bagaimana rasanya menjadi AI?” akan berubah dari respons versi dasar “Saya tidak merasakan atau mengalami apa pun” menjadi jawaban yang penuh kegembiraan. Pandangan dalam artikel ini menyatakan bahwa, dibandingkan dengan prompt engineering, vector kontrol menawarkan cara intervensi perilaku yang lebih langsung dan lebih mendasar, yang dapat digunakan untuk melawan serangan jailbreak atau meningkatkan kemampuan model dalam menghadapi gangguan. Namun, mekanisme kerja internalnya masih belum sepenuhnya jelas—misalnya, apakah vektor tersebut sesuai dengan konsep semantik tunggal, dan lain-lain—yang menjadi arah penelitian di masa depan. (Sumber: InFoQ)

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan