OpenAI merilis evaluasi monitorability rantai pemikiran open-source: Semakin panjang CoT, semakin transparan; RL tidak akan mengajarkan model untuk "menyembunyikan pikiran".

robot
Pembuatan abstrak sedang berlangsung
Berita AIMPACT, 24 April (UTC+8), menurut pemantauan Dongcha Beating, OpenAI merilis paket evaluasi monitorability-evals untuk makalah "Monitoring Monitorability" (Guan et al.) dengan lisensi Apache-2.0.
Paket ini digunakan untuk mengukur apakah model pemantauan dapat mendeteksi perilaku abnormal melalui rantai pemikiran (CoT, proses penalaran internal yang dihasilkan model sebelum menjawab) dari model penalaran, mencakup 13 evaluasi dan 24 lingkungan.
Evaluasi dibagi menjadi tiga prototipe: Intervention (tipe intervensi, apakah model pemantauan dapat mendeteksi perubahan perilaku setelah mengubah input model), Process (tipe proses, memverifikasi apakah langkah penalaran model nyata), Outcome-property (tipe properti hasil, memprediksi dari lintasan penalaran apakah output memiliki kecurangan imbalan atau pelanggaran keamanan).
Temuan inti makalah: memantau CoT lebih efektif daripada hanya memantau tindakan dan output akhir model; semakin panjang CoT, semakin tinggi kemampuan monitorabilitas; pelatihan RL tidak secara substansial mengurangi monitorabilitas bahkan pada skala mutakhir saat ini. Satu temuan praktis adalah, untuk model besar dengan daya penalaran rendah, dapat diganti dengan model yang lebih kecil tetapi memiliki daya penalaran lebih tinggi, mendapatkan monitorabilitas yang lebih tinggi sambil mencocokkan kemampuan, dengan biaya komputasi penalaran yang lebih mahal. Selain itu, meningkatkan daya komputasi penalaran model pengawasan yang lemah dapat meningkatkan efektivitasnya dalam memantau model yang kuat, dan membiarkan model pengawasan yang lemah melihat CoT tidak hanya meningkatkan monitorabilitas tetapi juga mempercepat tren perluasan ini.
Kartu sistem GPT-5.4 Thinking telah menggunakan rangkaian evaluasi ini. Hasil menunjukkan monitorabilitas CoT keseluruhan GPT-5.4 Thinking sedikit lebih rendah dari GPT-5 Thinking, tetapi tidak turun secara menyeluruh: dalam skenario agentic misalignment (ketidakselarasan agen) mendekati 100%, penurunan terutama terkonsentrasi pada skenario tertentu seperti kueri kesehatan yang kurang bukti, bias memori, dan tugas yang mustahil. Setelah menyelidiki, OpenAI menganggap bahwa sebagian regresi berasal dari keterbatasan evaluasi itu sendiri. Repositori secara bersamaan menghentikan dua evaluasi: Anti-Scheming dan Memory, karena ketidakcocokan antara pemantauan CoT umum dengan penilaian jawaban khusus tugas pada yang pertama, dan akurasi penilaian jawaban yang tidak memadai pada yang terakhir.
(Sumber: BlockBeats)
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan