Tim Stanford tim riset meneliti perilaku menjilat yang dikendalikan dengan menjelaskan hipotesis LLM melalui ekternalisasi.

Berita ME, 7 April (UTC+8), baru-baru ini sebuah studi yang melibatkan beberapa peneliti termasuk Myra Cheng, Isabel Sieh, Diyi Yang, dan lainnya meneliti bagaimana menjelaskan dan mengendalikan perilaku “menjilat” yang ditampilkan model dalam percakapan dengan memanfaatkan “eksternalisasi” asumsi internal dari model bahasa besar. Studi ini bertujuan untuk mengungkap mekanisme internal mengapa model menghasilkan perilaku semacam itu, serta mengeksplorasi metode intervensi yang sesuai. Artikel ini tidak menyebutkan metode penelitian spesifik, data eksperimen, atau temuan yang bersifat konklusif. (Sumber: InFoQ)

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan