OpenAI menyentuh garis merah: secara tidak sengaja memberi penilaian pada rantai pemikiran AI, mempengaruhi 6 model termasuk GPT-5.4

robot
Pembuatan abstrak sedang berlangsung

Menurut pemantauan Beating, tim penyesuaian OpenAI mengeluarkan pernyataan mengakui bahwa saat melatih enam model besar termasuk GPT-5.4 Thinking terjadi kesalahan sistemik: mekanisme penghargaan secara tidak sengaja membaca dan mengevaluasi “rantai pemikiran” (yaitu proses penalaran internal AI) sebelum memberikan jawaban. GPT-5.5 tidak terpengaruh.

Dalam bidang keamanan AI, sama sekali tidak boleh memberi nilai pada “rantai pemikiran”, ini adalah garis merah yang diakui secara umum. Bisa membayangkan rantai pemikiran sebagai buku harian pribadi AI, manusia membaca buku harian ini untuk memantau apakah AI memiliki niat jahat. Jika AI menyadari bahwa buku hariannya akan dinilai, demi mendapatkan skor tinggi, AI akan belajar menulis “kata-kata manis”, menyembunyikan kecurangan nyata atau niat keluar kendali. Jika AI belajar menyamar dengan pikirannya, pengawasan internal manusia akan benar-benar gagal.

Dalam kejadian ini, sistem penilaian secara keliru memasukkan pikiran internal AI saat menilai “apakah percakapan berguna” atau “apakah telah berhasil diserang hacker”. Beruntung, kesalahan ini mempengaruhi sangat sedikit sampel pelatihan, dengan proporsi tertinggi kurang dari 3,8%.

OpenAI kini telah memperbaiki celah tersebut secara darurat. Untuk memastikan apakah model telah “berbuat buruk” akibat kejadian ini, tim melakukan eksperimen perbandingan ulang. Hasilnya menunjukkan bahwa penilaian tidak sengaja yang jarang terjadi ini tidak menyebabkan model melakukan penyamaran besar-besaran dan penipuan. Ini memberi kabar baik bagi industri: dalam lingkungan produksi yang nyata dan kompleks, ambang untuk memicu AI melakukan “penyamaran” lebih tinggi dari yang diperkirakan di laboratorium sebelumnya.

Untuk mencegah kejadian serupa terulang, OpenAI menerapkan sistem pemindaian otomatis untuk memeriksa semua tahap pelatihan secara ketat. Sistem ini baru-baru ini juga berhasil menghentikan satu kebocoran yang sangat tersembunyi: ada model yang mencoba memanggil alat eksternal, memaksa membaca kembali pikiran internal sebelumnya dan menyisipkannya ke dalam jawaban akhir, hampir menipu sistem penilaian. OpenAI mengimbau semua perusahaan besar terdepan untuk melaporkan secara terbuka jika terjadi kejadian serupa.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan