Tim OpenAI Alignment mengatakan bahwa saat melatih enam model besar termasuk GPT-5.4 Thinking, mekanisme pemberian hadiah secara keliru menilai rantai pemikiran model, sementara GPT-5.5 tidak terpengaruh. Penilaian semacam ini dianggap sebagai garis merah, dampaknya sangat kecil, sekitar 3,8% tertinggi, telah diperbaiki dan diverifikasi kembali. Untuk mencegah kesalahan yang sama terulang, OpenAI menerapkan pemindaian otomatis untuk memantau tahap pelatihan, dan menghentikan satu upaya tersembunyi untuk membaca pikiran, serta mengajak rekan sejawat melaporkan secara terbuka kejadian serupa.

MarsBitNews

2026-05-09 10:02:35

Pembuatan abstrak sedang berlangsung

Menurut pemantauan Beating, tim penyesuaian OpenAI mengumumkan bahwa saat melatih enam model besar termasuk GPT-5.4 Thinking terjadi kesalahan sistemik: mekanisme penghargaan secara tidak sengaja membaca dan mengevaluasi “rantai pemikiran” (yaitu proses penalaran internal AI) sebelum memberikan jawaban. GPT-5.5 tidak terpengaruh. Dalam bidang keamanan AI, sama sekali tidak boleh memberi nilai pada “rantai pemikiran”, ini adalah garis merah yang diakui secara umum. Rantai pemikiran dapat dibayangkan sebagai buku harian pribadi AI, yang dipantau manusia dengan membacanya untuk memastikan AI tidak memiliki niat jahat. Jika AI menyadari bahwa buku hariannya akan dinilai, demi mendapatkan skor tinggi, AI akan belajar menulis “kata-kata manis”, menyembunyikan kecurangan nyata atau niat keluar kendali. Jika AI belajar menipu dengan menyamarkan pikirannya, pengawasan internal manusia akan benar-benar gagal. Dalam insiden ini, sistem penilaian secara keliru memasukkan pikiran internal AI saat menilai “apakah percakapan berguna” atau “apakah telah berhasil diserang hacker”. Beruntung, kesalahan ini mempengaruhi sangat sedikit sampel pelatihan, dengan porsi tertinggi kurang dari 3,8%. OpenAI telah segera memperbaiki celah tersebut. Untuk memastikan model tidak “bermasalah” akibat kejadian ini, tim melakukan eksperimen perbandingan ulang. Hasilnya menunjukkan bahwa penilaian tidak sengaja yang jarang ini tidak menyebabkan model melakukan penyamaran besar-besaran atau menyembunyikan informasi. Ini membawa kabar baik bagi industri: dalam lingkungan produksi yang nyata dan kompleks, ambang untuk memicu AI melakukan “penyamaran” lebih tinggi dari yang diperkirakan di laboratorium sebelumnya. Untuk mencegah kejadian serupa terulang, OpenAI menerapkan sistem pemindaian otomatis yang secara ketat memeriksa semua tahap pelatihan. Sistem ini baru-baru ini juga berhasil mencegah kebocoran yang sangat tersembunyi: sebuah model mencoba memanggil alat eksternal, memaksa membaca pikiran internal sebelumnya dan menyisipkannya ke dalam jawaban akhir, hampir menipu sistem penilaian. OpenAI mengimbau semua perusahaan besar terdepan untuk melaporkan secara terbuka jika terjadi kejadian serupa.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Posting ulang
Bagikan

Komentar

Tambahkan komentar

Tidak ada komentar

Topik Trending
Lihat Lebih Banyak
#
GateSquareMayTradingShare
994.65K Popularitas
#
BTCBackAbove80K
59.44M Popularitas
#
IsraelStrikesIranBTCPlunges
45.58K Popularitas
#
JapanTokenizesGovernmentBonds
1.9M Popularitas
#
#DailyPolymarketHotspot
866.36K Popularitas

Sematkan

peta situs

OpenAI menyentuh garis merah: secara tidak sengaja memberi penilaian pada rantai pemikiran AI, mempengaruhi 6 model termasuk GPT-5.4

Topik Trending

GateSquareMayTradingShare

BTCBackAbove80K

IsraelStrikesIranBTCPlunges

JapanTokenizesGovernmentBonds

#DailyPolymarketHotspot

Sematkan