Para peneliti mengusulkan metode rekayasa fitur dengan mengendalikan vektor intervensi untuk mempengaruhi perilaku model

robot
Pembuatan abstrak sedang berlangsung

Berita ME, pesan pada 4 April (UTC+8). Baru-baru ini, sebuah metode penelitian bernama “Representational Engineering” diajukan, dengan tujuan menyediakan AI model mekanisme transparansi dan kontrol dari atas ke bawah. Inti metode ini adalah menghitung sebuah “kontrol vektor” yang dapat dibaca saat inferensi model atau ditambahkan ke nilai aktivasi model, untuk menjelaskan atau mengendalikan perilaku model; seluruh proses tidak bergantung pada prompt engineering atau fine-tuning model.

Para peneliti mengeksplorasi penerapan kontrol vektor untuk mensimulasikan karakteristik seperti “kondisi halusinogen”, “kemalasan”, dan “ketekunan”, serta merilis paket alat yang sesuai di PyPI. Kontrol vektor adalah sekumpulan vektor (satu untuk setiap layer); dengan menerapkannya pada hidden state model, outputnya dapat diubah secara langsung. Misalnya, ketika menerapkan sebuah vektor “bahagia” pada model Mistral-7B-Instruct, jawaban atas pertanyaan “Bagaimana rasanya menjadi AI?” berubah dari tanggapan versi dasar “Saya tidak punya perasaan atau pengalaman” menjadi respons yang penuh kegembiraan.

Pandangan dalam artikel menyatakan bahwa dibandingkan dengan prompt engineering, kontrol vektor menyediakan cara intervensi perilaku yang lebih langsung dan lebih mendasar, yang dapat digunakan untuk melawan serangan jailbreak atau meningkatkan kemampuan model dalam menahan gangguan. Namun, mekanisme kerja internalnya masih belum sepenuhnya jelas; misalnya, apakah vektor tersebut terkait dengan satu konsep semantik tertentu atau tidak—ini menjadi arah penelitian ke depan. (Sumber: InFoQ)

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan