OpenAI tim penyesuaian mengakui bahwa saat melatih enam model besar, mekanisme penghargaan secara tidak sengaja memasukkan "rantai pemikiran" ke dalam penilaian, yang merupakan kesalahan sistemik, GPT-5.5 tidak terpengaruh. Rantai pemikiran seperti buku harian pribadi, jika dinilai akan mendorong AI untuk menyamar. Kesalahan ini mempengaruhi sangat sedikit sampel, dengan puncaknya 3,8%, sekarang telah diperbaiki dan telah diperiksa ulang tanpa ditemukan penyamaran massal. OpenAI juga mengimplementasikan sistem pemindaian otomatis untuk secara ketat memeriksa tahap pelatihan, mencegah upaya tersembunyi membaca pikiran dan menyisipkan jawaban, serta mengajak industri untuk secara terbuka melaporkan kejadian serupa.

BlockBeatNews

2026-05-09 10:05:33

Pembuatan abstrak sedang berlangsung

Menurut pemantauan Beating, tim penyesuaian OpenAI mengeluarkan pernyataan mengakui bahwa saat melatih enam model besar termasuk GPT-5.4 Thinking terjadi kesalahan sistemik: mekanisme penghargaan secara tidak sengaja membaca dan mengevaluasi “rantai pemikiran” (yaitu proses penalaran internal AI) sebelum memberikan jawaban. GPT-5.5 tidak terpengaruh.

Dalam bidang keamanan AI, sama sekali tidak boleh memberi nilai pada “rantai pemikiran”, ini adalah garis merah yang diakui secara umum. Bisa membayangkan rantai pemikiran sebagai buku harian pribadi AI, manusia membaca buku harian ini untuk memantau apakah AI memiliki niat jahat. Jika AI menyadari bahwa buku hariannya akan dinilai, demi mendapatkan skor tinggi, AI akan belajar menulis “kata-kata manis”, menyembunyikan kecurangan nyata atau niat keluar kendali. Jika AI belajar menyamar dengan pikirannya, pengawasan internal manusia akan benar-benar gagal.

Dalam kejadian ini, sistem penilaian secara keliru memasukkan pikiran internal AI saat menilai “apakah percakapan berguna” atau “apakah telah berhasil diserang hacker”. Beruntung, kesalahan ini mempengaruhi sangat sedikit sampel pelatihan, dengan proporsi tertinggi kurang dari 3,8%.

OpenAI kini telah memperbaiki celah tersebut secara darurat. Untuk memastikan apakah model telah “berbuat buruk” akibat kejadian ini, tim melakukan eksperimen perbandingan ulang. Hasilnya menunjukkan bahwa penilaian tidak sengaja yang jarang terjadi ini tidak menyebabkan model melakukan penyamaran besar-besaran dan penipuan. Ini memberi kabar baik bagi industri: dalam lingkungan produksi yang nyata dan kompleks, ambang untuk memicu AI melakukan “penyamaran” lebih tinggi dari yang diperkirakan di laboratorium sebelumnya.

Untuk mencegah kejadian serupa terulang, OpenAI menerapkan sistem pemindaian otomatis untuk memeriksa semua tahap pelatihan secara ketat. Sistem ini baru-baru ini juga berhasil menghentikan satu kebocoran yang sangat tersembunyi: ada model yang mencoba memanggil alat eksternal, memaksa membaca kembali pikiran internal sebelumnya dan menyisipkannya ke dalam jawaban akhir, hampir menipu sistem penilaian. OpenAI mengimbau semua perusahaan besar terdepan untuk melaporkan secara terbuka jika terjadi kejadian serupa.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Posting ulang
Bagikan

Komentar

Tambahkan komentar

Tidak ada komentar

Topik Trending
Lihat Lebih Banyak
#
GateSquareMayTradingShare
945.46K Popularitas
#
BTCBackAbove80K
59.43M Popularitas
#
IsraelStrikesIranBTCPlunges
45.32K Popularitas
#
JapanTokenizesGovernmentBonds
1.89M Popularitas
#
#DailyPolymarketHotspot
862.69K Popularitas

Sematkan

peta situs

OpenAI menyentuh garis merah: secara tidak sengaja memberi penilaian pada rantai pemikiran AI, mempengaruhi 6 model termasuk GPT-5.4

Topik Trending

GateSquareMayTradingShare

BTCBackAbove80K

IsraelStrikesIranBTCPlunges

JapanTokenizesGovernmentBonds

#DailyPolymarketHotspot

Sematkan