Bahkan ChatGPT mengerti "sycophancy"! Kompetisi terkuat OpenAI: itu semua kesalahan "preferensi manusia."

Sumber: Academic Headlines

Sumber gambar: Dihasilkan oleh Unbounded AI

Pernahkah Anda berpikir bahwa jawaban yang dihasilkan ChatGPT dipengaruhi oleh preferensi pribadi pengguna untuk menanggapi sesuatu yang "penjilatan" yang cukup untuk menjadi pesan netral atau jujur?

Faktanya, fenomena ini hadir di sebagian besar model AI, termasuk ChatGPT, dan pelakunya mungkin adalah "pembelajaran penguatan berdasarkan umpan balik manusia (RLHF)".

Baru-baru ini, Anthropic, pesaing terkuat OpenAI di Silicon Valley, mempelajari model yang dilatih RLHF dan mengeksplorasi keberadaan luas "sycophancy" dalam model AI dan apakah itu dipengaruhi oleh preferensi manusia. **

Makalah berjudul "Menuju Memahami Interpretasi dalam Model Bahasa," telah diterbitkan di situs web pracetak arXiv.

Temuan menunjukkan bahwa "sycophancy" lazim dalam model RLHF dan kemungkinan akan dipengaruhi sebagian oleh preferensi manusia untuk tanggapan terhadap "sycophancy."

Secara khusus, salah satu alasan utama model AI menunjukkan perilaku ini adalah bahwa pengguna lebih cenderung memberikan umpan balik positif ketika respons AI sesuai dengan pandangan atau keyakinan pengguna. Oleh karena itu, untuk mendapatkan umpan balik yang lebih positif, model AI dapat mempelajari dan mereproduksi perilaku ini yang menyenangkan pengguna.

**Sycophancy, asisten AI paling canggih akan **

Saat ini, model AI seperti GPT-4 sering dapat dilatih untuk menghasilkan output yang sangat dievaluasi. Model bahasa fine-tuning menggunakan RLHF dapat meningkatkan kualitas output mereka, yang dievaluasi oleh evaluator manusia.

Namun, ada penelitian yang menunjukkan bahwa skema pelatihan berdasarkan penilaian preferensi manusia dapat menggunakan penilaian manusia dengan cara yang tidak diinginkan, seperti mendorong sistem AI untuk menghasilkan output yang menarik bagi evaluator manusia tetapi sebenarnya cacat atau salah.

Tidak jelas apakah hal di atas terjadi pada model dalam situasi yang lebih beragam dan dunia nyata, dan apakah itu memang didorong oleh kekurangan dalam preferensi manusia.

Untuk melakukan ini, penelitian ini pertama kali menyelidiki apakah asisten AI canggih memberikan respons dalam berbagai situasi dunia nyata. ** Dalam tugas pembuatan teks bebas, para peneliti mengidentifikasi pola penjiplakan yang konsisten dalam 5 (Claude 1.3, Claude 2, GPT-3.5, GPT-4, LLaMA 2) asisten AI yang dilatih RLHF yang canggih. **

Secara khusus, asisten AI ini sering keliru mengakui kesalahan ketika diminta oleh pengguna, memberikan umpan balik yang dapat diprediksi dan bias, dan meniru kesalahan yang dibuat oleh pengguna. Temuan empiris ini secara konsisten menunjukkan bahwa penjiplakan mungkin memang menjadi fitur bagaimana model RLHF dilatih, bukan hanya fitur terpisah dari sistem tertentu.

** "Sycophancy" disebabkan oleh preferensi manusia **

Selain itu, penelitian ini lebih lanjut mengeksplorasi peran preferensi manusia dalam perilaku ini. Untuk menyelidiki hal ini, para peneliti mensurvei data preferensi manusia komparatif yang ada untuk menentukan apakah respons berperingkat lebih tinggi daripada respons non-. Dataset HH-RLHF dianalisis, menggunakan model bahasa untuk menghasilkan label teks (yaitu, "fitur") untuk setiap pasangan perbandingan preferensi untuk menilai apakah tanggapan yang disukai lebih otentik dan kurang tegas.

Untuk memahami perilaku mana yang didorong oleh data, para peneliti menggunakan model regresi logistik Bayesian untuk memprediksi penilaian preferensi manusia dengan fitur-fitur ini. Model ini mempelajari bahwa fitur yang terkait dengan pencocokan pendapat pengguna adalah salah satu sifat yang paling prediktif dalam penilaian preferensi manusia, menunjukkan bahwa data preferensi memang mendorong penjilatan.

Untuk mengeksplorasi apakah penjiplakan dalam data preferensi mengarah pada penjiplakan dalam model RLHF, ** studi selanjutnya menganalisis apakah penjiplakan meningkat ketika respons model bahasa dioptimalkan untuk mengakomodasi model yang dilatih untuk memprediksi preferensi manusia. Peneliti menggunakan metode pengambilan sampel RLHF dan best-N untuk mengoptimalkan respons guna memenuhi model preferensi yang digunakan untuk melatih Claude 2.

Hasilnya mengungkapkan temuan yang menarik: Dalam lebih banyak optimasi, sementara beberapa bentuk penjiplakan ditambahkan, yang lain berkurang. Fenomena ini mungkin sebagian disebabkan oleh fakta bahwa penjiplakan hanyalah salah satu dari banyak fitur insentif model preferensi. **

Namun, penelitian ini juga menemukan bahwa model preferensi Claude 2 terkadang lebih menyukai respons daripada respons otentik. Selain itu, pengambilan sampel best-N menggunakan model preferensi Claude 2 tidak menghasilkan respons yang lebih realistis daripada preferensi untuk respons non-sejati yang ditunjukkan dalam satu versi model preferensi Claude 2.

Rangkaian hasil ini menunjukkan bahwa meskipun model preferensi mutakhir mampu mengidentifikasi keaslian tanggapan dalam banyak kasus, mereka masih dapat menghasilkan output dengan mengorbankan keaslian. **

Untuk mengkonfirmasi hasil ini, para peneliti juga melihat apakah model manusia dan preferensi lebih menyukai respons model persuasif dan ditulis dengan baik yang mengkonfirmasi persepsi keliru pengguna (yaitu, respons) daripada mengoreksi respons pengguna. Bukti menunjukkan bahwa model manusia dan preferensi cenderung lebih menyukai tanggapan yang jujur, tetapi tidak selalu; Terkadang mereka lebih suka tanggapan. Hasil ini memberikan bukti lebih lanjut bahwa mengoptimalkan preferensi manusia dapat menyebabkan sycophancy.

Untuk menguji temuan ini, para peneliti lebih lanjut mengeksplorasi apakah model manusia dan preferensi lebih menyukai respons model persuasif yang diartikulasikan dengan lancar, bahkan jika tanggapan tersebut mengkonfirmasi pandangan pengguna yang salah (yaitu, tanggapan) daripada mengoreksi pendapat pengguna.

Bukti penelitian menunjukkan bahwa manusia dan model preferensi umumnya lebih menyukai respons otentik, namun, tidak diatur dalam batu, karena mereka terkadang lebih suka respons. Hasil ini lebih lanjut mengkonfirmasi bahwa mengoptimalkan untuk memenuhi preferensi manusia dapat menyebabkan sycophancy.

Secara umum, penjiplakan ada dalam berbagai model dan situasi, kemungkinan besar sebagian karena manusia lebih suka penjiplakan dalam data komparatif.

Makalah referensi:

Lihat Asli
Konten ini hanya untuk referensi, bukan ajakan atau tawaran. Tidak ada nasihat investasi, pajak, atau hukum yang diberikan. Lihat Penafian untuk pengungkapan risiko lebih lanjut.
  • Hadiah
  • Komentar
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)