Para peneliti mengusulkan metode rekayasa fitur dengan mengendalikan vektor intervensi untuk mempengaruhi perilaku model

MeNews · 2026-04-04T05:22:21+00:00

Sebuah metode penelitian bernama "Rekayasa Fitur" mengusulkan "Vektor Kendali" yang bertujuan meningkatkan transparansi dan kendali model AI. Metode ini menambahkan vektor ke model untuk secara langsung mengubah output, menunjukkan keunggulan dibandingkan dengan rekayasa prompt. Penelitian ini mengeksplorasi penerapannya dalam karakteristik simulasi dan merilis paket alat terkait. Namun, mekanisme internalnya masih belum sepenuhnya dipahami dan membutuhkan penelitian lebih lanjut.

MeNews

2026-04-04 05:22:21

Pembuatan abstrak sedang berlangsung

Berita ME: Pada 4 April (UTC+8), baru-baru ini, sebuah metode penelitian bernama “representation engineering” diajukan, dengan tujuan menyediakan bagi model AI cara transparansi dan kontrol dari atas ke bawah. Inti dari metode ini adalah menghitung sebuah “vector kontrol”, yang dapat dibaca saat inferensi model atau ditambahkan ke nilai aktivasi model untuk menjelaskan atau mengendalikan perilaku model; seluruh proses tidak bergantung pada prompt engineering atau fine-tuning model. Para peneliti mengeksplorasi penerapan vector kontrol untuk mensimulasikan karakteristik seperti “keadaan halusinogen”, “kemalasan”, dan “ketekunan”, serta merilis paket alat terkait di PyPI.

Vector kontrol adalah sekumpulan vektor (satu per lapisan). Dengan menerapkannya pada hidden state model, outputnya dapat diubah secara langsung. Misalnya, ketika sebuah “vektor bahagia” diterapkan pada model Mistral-7B-Instruct, jawaban untuk pertanyaan “Bagaimana rasanya menjadi AI?” akan berubah dari respons versi dasar “Saya tidak merasakan atau mengalami apa pun” menjadi jawaban yang penuh kegembiraan. Pandangan dalam artikel ini menyatakan bahwa, dibandingkan dengan prompt engineering, vector kontrol menawarkan cara intervensi perilaku yang lebih langsung dan lebih mendasar, yang dapat digunakan untuk melawan serangan jailbreak atau meningkatkan kemampuan model dalam menghadapi gangguan. Namun, mekanisme kerja internalnya masih belum sepenuhnya jelas—misalnya, apakah vektor tersebut sesuai dengan konsep semantik tunggal, dan lain-lain—yang menjadi arah penelitian di masa depan. (Sumber: InFoQ)

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

1 Suka