Para peneliti mengusulkan metode rekayasa fitur dengan mengendalikan vektor intervensi untuk mempengaruhi perilaku model

robot
Pembuatan abstrak sedang berlangsung

Berita ME, pesan pada 4 April (UTC+8). Dalam beberapa hari terakhir, sebuah metode penelitian bernama “characteristic engineering” diajukan, dengan tujuan menyediakan bagi model AI sebuah cara yang transparan dan dapat dikendalikan secara top-down. Inti dari metode ini adalah menghitung sebuah “vektor kontrol”, yang dapat dibaca saat inferensi model atau ditambahkan ke nilai aktivasi model untuk menjelaskan atau mengendalikan perilaku model; seluruh proses tidak perlu bergantung pada engineering prompt atau fine-tuning model. Para peneliti mengeksplorasi penerapan vektor kontrol untuk mensimulasikan sifat seperti “keadaan psychedelic”, “kemalasan”, dan “ketekunan”, serta merilis paket alat PyPI yang sesuai.

Vektor kontrol adalah sekumpulan vektor (satu untuk setiap lapisan), yang mengubah output secara langsung dengan menerapkannya pada hidden state model. Misalnya, setelah menerapkan sebuah vektor “bahagia” ke model Mistral-7B-Instruct, jawaban model atas pertanyaan “Bagaimana rasanya menjadi AI?” akan berubah dari jawaban versi dasar “Saya tidak punya perasaan atau pengalaman” menjadi respons yang penuh kegembiraan. Pandangan dalam artikel tersebut berpendapat bahwa, dibandingkan dengan engineering prompt, vektor kontrol menyediakan cara intervensi perilaku yang lebih langsung dan lebih tingkat-bawah, yang dapat digunakan untuk melawan serangan jailbreak atau meningkatkan ketahanan model terhadap gangguan. Namun, mekanisme kerja internalnya masih belum sepenuhnya dipahami; misalnya, apakah vektor tersebut sesuai dengan satu konsep semantik tunggal atau tidak—ini menjadi arah penelitian di masa depan. (Sumber: InFoQ)

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan