Para peneliti mengusulkan metode rekayasa fitur dengan mengendalikan vektor intervensi untuk mempengaruhi perilaku model

robot
Pembuatan abstrak sedang berlangsung

Berita ME, pada 4 April (UTC+8), baru-baru ini, sebuah metode penelitian bernama “representation engineering” diajukan, dengan tujuan menyediakan bagi model AI cara transparansi dan kontrol dari atas ke bawah. Inti dari metode ini adalah menghitung sebuah “vektor kontrol”, yang dapat dibaca saat penalaran model atau ditambahkan ke nilai aktivasi model untuk menjelaskan atau mengendalikan perilaku model; seluruh proses tidak bergantung pada rekayasa prompt atau penyesuaian halus (fine-tuning) model. Para peneliti mengeksplorasi penerapan vektor kontrol dalam mensimulasikan karakteristik seperti “keadaan psikedelik”, “malas”, dan “rajin”, serta merilis paket alat PyPI yang sesuai. Vektor kontrol adalah sekumpulan vektor (satu per lapisan), yang secara langsung mengubah output model dengan menerapkannya pada state tersembunyinya. Misalnya, setelah menerapkan vektor “bahagia” pada model Mistral-7B-Instruct, jawaban model atas pertanyaan “Apa rasanya menjadi AI?” berubah dari respons versi dasar “Saya tidak merasakan atau mengalami apa pun” menjadi respons yang penuh kegembiraan. Pandangan dalam tulisan tersebut berpendapat bahwa dibandingkan dengan rekayasa prompt, vektor kontrol menawarkan cara intervensi perilaku yang lebih langsung dan lebih fundamental, yang dapat digunakan untuk melawan serangan jailbreaking atau meningkatkan kemampuan model untuk menahan gangguan. Namun, mekanisme kerja internalnya masih belum sepenuhnya jelas, misalnya apakah vektor tersebut sesuai dengan satu konsep semantik tunggal atau tidak; arah penelitian ini masih menjadi fokus ke depan. (Sumber: InFoQ)

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan