Para peneliti mengusulkan metode rekayasa fitur dengan mengendalikan vektor intervensi untuk mempengaruhi perilaku model

robot
Pembuatan abstrak sedang berlangsung

Berita ME, 4 April (UTC+8), baru-baru ini, sebuah metode penelitian yang disebut “representation engineering” diajukan, dengan tujuan menyediakan AI model cara transparansi dan kontrol dari atas ke bawah. Inti dari metode ini adalah menghitung sebuah “control vector”, yang dapat dibaca saat inferensi model atau ditambahkan ke nilai aktivasi model, untuk menjelaskan atau mengendalikan perilaku model; seluruh proses tidak perlu bergantung pada prompt engineering atau fine-tuning model. Para peneliti mengeksplorasi penerapan control vector untuk mensimulasikan karakteristik seperti “kondisi halusinogen”, “kemalasan”, dan “kerajinan”, serta merilis paket alat terkait di PyPI.

Control vector adalah kumpulan vektor (satu per lapisan), yang secara langsung mengubah keluarannya dengan menerapkannya pada hidden state model. Misalnya, setelah menerapkan sebuah vektor “bahagia” pada model Mistral-7B-Instruct, jawabannya atas pertanyaan “bagaimana rasanya menjadi AI?” berubah dari jawaban versi dasar “Saya tidak merasakan atau mengalami apa pun” menjadi respons yang penuh semangat. Pandangan dalam artikel ini menyatakan bahwa, dibandingkan dengan prompt engineering, control vector menawarkan cara intervensi perilaku yang lebih langsung dan lebih mendasar, yang dapat digunakan untuk melawan serangan jailbreak atau meningkatkan kemampuan model untuk menahan gangguan. Namun, mekanisme kerja internalnya masih belum sepenuhnya dipahami; misalnya, apakah vektor tersebut sesuai dengan satu konsep semantik tertentu, dan hal-hal semacam itu menjadi arah penelitian ke depan. (Sumber: InFoQ)

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan