Tim Stanford tim riset meneliti perilaku menjilat yang dikendalikan dengan menjelaskan hipotesis LLM melalui ekternalisasi.

MeNews · 2026-04-07T01:20:19+00:00

ME News Berita, 7 April (UTC+8), Baru-baru ini, sebuah penelitian yang melibatkan beberapa peneliti seperti Myra Cheng, Isabel Sieh, Diyi Yang, dan lainnya, mengeksplorasi bagaimana "mengexternalisasi" asumsi internal dari model bahasa besar untuk menjelaskan dan mengendalikan perilaku "merendahkan diri" yang ditunjukkan model dalam percakapan. Penelitian ini bertujuan mengungkap mekanisme internal yang menyebabkan perilaku tersebut dan mengeksplorasi metode intervensi yang sesuai. Dalam artikel ini tidak disebutkan metode penelitian spesifik, data eksperimen, atau temuan konklusif. (Sumber: InFoQ)

MeNews

2026-04-07 01:20:19

Berita ME, 7 April (UTC+8), baru-baru ini sebuah studi yang melibatkan beberapa peneliti termasuk Myra Cheng, Isabel Sieh, Diyi Yang, dan lainnya meneliti bagaimana menjelaskan dan mengendalikan perilaku “menjilat” yang ditampilkan model dalam percakapan dengan memanfaatkan “eksternalisasi” asumsi internal dari model bahasa besar. Studi ini bertujuan untuk mengungkap mekanisme internal mengapa model menghasilkan perilaku semacam itu, serta mengeksplorasi metode intervensi yang sesuai. Artikel ini tidak menyebutkan metode penelitian spesifik, data eksperimen, atau temuan yang bersifat konklusif. (Sumber: InFoQ)

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

2 Suka