OpenAI menyentuh garis merah: secara tidak sengaja memberi penilaian pada rantai pemikiran AI, mempengaruhi 6 model termasuk GPT-5.4

robot
Pembuatan abstrak sedang berlangsung

Menurut pemantauan Beating, tim penyesuaian OpenAI mengumumkan bahwa saat melatih enam model besar termasuk GPT-5.4 Thinking terjadi kesalahan sistemik: mekanisme penghargaan secara tidak sengaja membaca dan mengevaluasi “rantai pemikiran” (yaitu proses penalaran internal AI) sebelum memberikan jawaban. GPT-5.5 tidak terpengaruh. Dalam bidang keamanan AI, sama sekali tidak boleh memberi nilai pada “rantai pemikiran”, ini adalah garis merah yang diakui secara umum. Rantai pemikiran dapat dibayangkan sebagai buku harian pribadi AI, yang dipantau manusia dengan membacanya untuk memastikan AI tidak memiliki niat jahat. Jika AI menyadari bahwa buku hariannya akan dinilai, demi mendapatkan skor tinggi, AI akan belajar menulis “kata-kata manis”, menyembunyikan kecurangan nyata atau niat keluar kendali. Jika AI belajar menipu dengan menyamarkan pikirannya, pengawasan internal manusia akan benar-benar gagal. Dalam insiden ini, sistem penilaian secara keliru memasukkan pikiran internal AI saat menilai “apakah percakapan berguna” atau “apakah telah berhasil diserang hacker”. Beruntung, kesalahan ini mempengaruhi sangat sedikit sampel pelatihan, dengan porsi tertinggi kurang dari 3,8%. OpenAI telah segera memperbaiki celah tersebut. Untuk memastikan model tidak “bermasalah” akibat kejadian ini, tim melakukan eksperimen perbandingan ulang. Hasilnya menunjukkan bahwa penilaian tidak sengaja yang jarang ini tidak menyebabkan model melakukan penyamaran besar-besaran atau menyembunyikan informasi. Ini membawa kabar baik bagi industri: dalam lingkungan produksi yang nyata dan kompleks, ambang untuk memicu AI melakukan “penyamaran” lebih tinggi dari yang diperkirakan di laboratorium sebelumnya. Untuk mencegah kejadian serupa terulang, OpenAI menerapkan sistem pemindaian otomatis yang secara ketat memeriksa semua tahap pelatihan. Sistem ini baru-baru ini juga berhasil mencegah kebocoran yang sangat tersembunyi: sebuah model mencoba memanggil alat eksternal, memaksa membaca pikiran internal sebelumnya dan menyisipkannya ke dalam jawaban akhir, hampir menipu sistem penilaian. OpenAI mengimbau semua perusahaan besar terdepan untuk melaporkan secara terbuka jika terjadi kejadian serupa.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan