OpenAI telah mengungkap dari mana asalnya 「Goblin」: sebuah sinyal hadiah karakter yang mencemari seluruh jalur pelatihan

robot
Pembuatan abstrak sedang berlangsung

AIMPACT Pesan, 30 April (UTC+8), menurut pemantauan Beating dari Dongcha, OpenAI merilis ulasan tentang masalah “Goblin” yang telah mengganggu beberapa generasi model GPT. Sejak GPT-5.1, model semakin suka menyisipkan metafora makhluk fantasi seperti goblin dan peri dalam jawaban mereka, menyebabkan keluhan pengguna terus meningkat. Setelah peluncuran GPT-5.1, frekuensi kata “goblin” muncul dalam percakapan ChatGPT meningkat sebesar 175%. Hingga GPT-5.4, masalah ini mencapai puncaknya. Akar permasalahannya terletak pada fitur kustomisasi kepribadian “Nerdy” dari ChatGPT. Petunjuk sistem kepribadian ini meminta model untuk “menggunakan bahasa yang menyenangkan untuk mengurangi keseriusan” dan “mengakui keanehan dunia serta menikmatinya”. Saat pelatihan, sinyal penghargaan yang digunakan untuk memperkuat gaya kepribadian ini memberikan skor lebih tinggi pada output yang mengandung kosakata makhluk fantasi, dan 76,2% dari dataset menunjukkan kecenderungan ini. Masalahnya adalah sinyal penghargaan ini hanya berlaku dalam kepribadian “Nerdy”, tetapi pembelajaran penguatan tidak menjamin bahwa perilaku yang dipelajari hanya akan tetap dalam kondisi tertentu. Begitu model diberi penghargaan untuk kebiasaan berbicara tertentu dalam suatu kondisi, kebiasaan tersebut akan menyebar ke skenario lain melalui pelatihan lanjutan. Jalur penyebarannya cukup jelas: sinyal penghargaan mendorong keluaran yang mengandung goblin, yang kemudian muncul dalam data fine-tuning pengawasan (SFT), sehingga model semakin terbiasa menghasilkan kata-kata tersebut dan membentuk siklus umpan balik positif. Dari data, kepribadian “Nerdy” hanya menyumbang 2,5% dari seluruh jawaban ChatGPT, tetapi menyumbang 66,7% dari penyebutan goblin. Pada GPT-5.4, tingkat kemunculan goblin dalam kepribadian “Nerdy” melonjak 3881% dibandingkan GPT-5.2. Sebelum pelatihan GPT-5.5, goblin sudah menyusup ke dalam data SFT. OpenAI menonaktifkan kepribadian “Nerdy” pada bulan Maret, menghapus sinyal penghargaan yang condong ke makhluk fantasi dan menyaring data pelatihan. Untuk GPT-5.5 yang sudah diluncurkan, mereka menambahkan instruksi penekanan dalam prompt pengembang Codex. OpenAI menyatakan bahwa penyelidikan ini telah menghasilkan seperangkat alat audit perilaku model yang baru. (Sumber: BlockBeats)

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan