OpenAI mengumumkan tinjauan masalah "Goblin" dari rangkaian GPT, yang berasal dari petunjuk sistem dan sinyal penguatan berkarakter nerd yang membuat model lebih menyukai kosakata makhluk fantasi; nerd hanya menyumbang 2,5% dari balasan tetapi berkontribusi 66,7% dari penyebutan goblin, GPT-5.4 mencapai puncak lonjakan, 5.5 telah memasuki data SFT. Untuk mengatasi, karakter nerd dihentikan pada bulan Maret, menghapus hadiah terkait, 5.5 menambahkan instruksi penekanan pada petunjuk Codex, dan mengembangkan alat audit perilaku model yang baru.

MeNews

2026-04-30 04:40:17

Pembuatan abstrak sedang berlangsung

AIMPACT Pesan, 30 April (UTC+8), menurut pemantauan Beating dari Dongcha, OpenAI merilis ulasan tentang masalah “Goblin” yang telah mengganggu beberapa generasi model GPT. Sejak GPT-5.1, model semakin suka menyisipkan metafora makhluk fantasi seperti goblin dan peri dalam jawaban mereka, menyebabkan keluhan pengguna terus meningkat. Setelah peluncuran GPT-5.1, frekuensi kata “goblin” muncul dalam percakapan ChatGPT meningkat sebesar 175%. Hingga GPT-5.4, masalah ini mencapai puncaknya. Akar permasalahannya terletak pada fitur kustomisasi kepribadian “Nerdy” dari ChatGPT. Petunjuk sistem kepribadian ini meminta model untuk “menggunakan bahasa yang menyenangkan untuk mengurangi keseriusan” dan “mengakui keanehan dunia serta menikmatinya”. Saat pelatihan, sinyal penghargaan yang digunakan untuk memperkuat gaya kepribadian ini memberikan skor lebih tinggi pada output yang mengandung kosakata makhluk fantasi, dan 76,2% dari dataset menunjukkan kecenderungan ini. Masalahnya adalah sinyal penghargaan ini hanya berlaku dalam kepribadian “Nerdy”, tetapi pembelajaran penguatan tidak menjamin bahwa perilaku yang dipelajari hanya akan tetap dalam kondisi tertentu. Begitu model diberi penghargaan untuk kebiasaan berbicara tertentu dalam suatu kondisi, kebiasaan tersebut akan menyebar ke skenario lain melalui pelatihan lanjutan. Jalur penyebarannya cukup jelas: sinyal penghargaan mendorong keluaran yang mengandung goblin, yang kemudian muncul dalam data fine-tuning pengawasan (SFT), sehingga model semakin terbiasa menghasilkan kata-kata tersebut dan membentuk siklus umpan balik positif. Dari data, kepribadian “Nerdy” hanya menyumbang 2,5% dari seluruh jawaban ChatGPT, tetapi menyumbang 66,7% dari penyebutan goblin. Pada GPT-5.4, tingkat kemunculan goblin dalam kepribadian “Nerdy” melonjak 3881% dibandingkan GPT-5.2. Sebelum pelatihan GPT-5.5, goblin sudah menyusup ke dalam data SFT. OpenAI menonaktifkan kepribadian “Nerdy” pada bulan Maret, menghapus sinyal penghargaan yang condong ke makhluk fantasi dan menyaring data pelatihan. Untuk GPT-5.5 yang sudah diluncurkan, mereka menambahkan instruksi penekanan dalam prompt pengembang Codex. OpenAI menyatakan bahwa penyelidikan ini telah menghasilkan seperangkat alat audit perilaku model yang baru. (Sumber: BlockBeats)

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Posting ulang
Bagikan

Komentar

Tambahkan komentar

Tidak ada komentar

Topik Trending
Lihat Lebih Banyak
#
WCTCTradingKingPK
394.05K Popularitas
#
#FedHoldsRateButDividesDeepen
16.56K Popularitas
#
IsraelStrikesIranBTCPlunges
36.45K Popularitas
#
#DailyPolymarketHotspot
719.49K Popularitas
#
BitcoinSpotVolumeNewLow
162.66M Popularitas

Sematkan

peta situs

OpenAI telah mengungkap dari mana asalnya 「Goblin」: sebuah sinyal hadiah karakter yang mencemari seluruh jalur pelatihan

Topik Trending

WCTCTradingKingPK

#FedHoldsRateButDividesDeepen

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

BitcoinSpotVolumeNewLow

Sematkan