OpenAI telah mengungkap dari mana asalnya 「Goblin」: sebuah sinyal hadiah karakter yang mencemari seluruh jalur pelatihan

Menurut pemantauan Beating, OpenAI merilis sebuah ulasan tentang masalah “Goblin” yang telah mengganggu beberapa generasi model GPT. Sejak GPT-5.1, model semakin sering memasukkan metafora makhluk fantasi seperti goblin dan peri dalam jawaban mereka, dan keluhan pengguna terus meningkat. Setelah peluncuran GPT-5.1, frekuensi kata “goblin” muncul dalam percakapan ChatGPT meningkat sebesar 175%. Hingga GPT-5.4, masalah ini mencapai puncaknya.

Akar permasalahan terletak pada fitur kustomisasi kepribadian “Nerdy” dari ChatGPT. Petunjuk sistem kepribadian ini meminta model “menggunakan keasyikan bahasa untuk mengurangi keseriusan” dan “mengakui keanehan dunia serta menikmatinya”. Saat pelatihan, sinyal penghargaan yang digunakan untuk memperkuat gaya kepribadian ini memberikan skor lebih tinggi pada output yang mengandung kosakata makhluk fantasi, dan bias ini dapat diamati di 76,2% dataset.

Masalahnya adalah sinyal penghargaan ini hanya berlaku dalam kepribadian “Nerdy”, tetapi pembelajaran penguatan tidak menjamin bahwa perilaku yang dipelajari hanya akan muncul dalam kondisi tertentu. Begitu model diberi penghargaan untuk kebiasaan berbicara tertentu dalam suatu kondisi, kebiasaan tersebut akan menyebar ke skenario lain melalui pelatihan lanjutan. Jalur penyebarannya cukup jelas: sinyal penghargaan mendorong keluaran yang mengandung goblin, yang kemudian muncul dalam data fine-tuning pengawasan (SFT), sehingga model semakin terbiasa menghasilkan kata-kata tersebut dan membentuk umpan balik positif. Dari data, kepribadian “Nerdy” hanya menyumbang 2,5% dari seluruh balasan ChatGPT, tetapi menyumbang 66,7% dari penyebutan goblin. Dalam GPT-5.4, tingkat kemunculan goblin dalam kepribadian “Nerdy” melonjak 3881% dibandingkan GPT-5.2.

GPT-5.5 sudah mulai dilatih sebelum akar penyebabnya ditemukan, dan goblin sudah menyusup ke data SFT. OpenAI menonaktifkan kepribadian “Nerdy” pada bulan Maret, menghapus sinyal penghargaan yang condong ke makhluk fantasi dan menyaring data pelatihan. Untuk GPT-5.5 yang sudah diluncurkan, mereka menambahkan instruksi penekanan dalam petunjuk pengembang Codex. OpenAI menyatakan bahwa penyelidikan ini telah melahirkan seperangkat alat audit perilaku model yang baru.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan