OpenAI merilis evaluasi monitorability chain of thought open-source: semakin panjang CoT, semakin transparan, RL tidak mengajarkan model untuk "menyembunyikan pikiran"

robot
Pembuatan abstrak sedang berlangsung
AIMPACT berita, 24 April (UTC+8), menurut pemantauan Beating, OpenAI telah merilis open source perangkat evaluasi untuk makalah "Monitoring Monitorability" (Guan et al.) yang disebut monitorability-evals, dengan lisensi Apache-2.0. Perangkat ini digunakan untuk mengukur apakah model pemantauan dapat mendeteksi perilaku abnormal melalui rantai pemikiran (CoT, proses penalaran internal yang dihasilkan model sebelum menjawab) dari model penalaran, yang mencakup 13 evaluasi dan 24 lingkungan. Evaluasi dibagi menjadi tiga prototipe: Intervensi (tipe intervensi, mengubah input model untuk melihat apakah model pemantauan dapat mendeteksi perubahan perilaku), Proses (tipe proses, memverifikasi apakah langkah penalaran model nyata), dan Properti-hasil (tipe properti hasil, memprediksi dari jejak penalaran apakah output memiliki kecurangan imbalan atau pelanggaran keamanan). Temuan inti makalah: Memantau CoT lebih efektif daripada hanya memantau tindakan akhir dan output model; semakin panjang CoT, semakin tinggi monitorabilitas; pelatihan RL bahkan pada skala terdepan saat ini tidak secara substansial mengurangi monitorabilitas. Temuan praktis adalah bahwa untuk model besar dengan kekuatan penalaran rendah, dapat diganti dengan model yang lebih kecil tetapi dengan kekuatan penalaran lebih tinggi, yang mencocokkan kemampuan sambil mendapatkan monitorabilitas yang lebih tinggi, dengan biaya daya komputasi penalaran yang lebih mahal. Selain itu, memperluas daya komputasi penalaran model pemantauan yang lemah dapat meningkatkan efektivitasnya dalam memantau model yang kuat, sementara membuat model pemantauan yang lemah melihat CoT tidak hanya meningkatkan monitorabilitas tetapi juga mempercepat tren ekspansi ini. Kartu sistem GPT-5.4 Thinking telah menggunakan evaluasi ini. Hasilnya menunjukkan bahwa monitorabilitas CoT keseluruhan GPT-5.4 Thinking sedikit lebih rendah daripada GPT-5 Thinking, tetapi tidak menurun secara menyeluruh: dalam skenario misalignment agen (penyimpangan agen) mendekati 100%, penurunan terutama terjadi pada skenario tertentu seperti kurangnya bukti dalam kueri kesehatan, bias memori, dan tugas yang tidak mungkin. Setelah penyelidikan, OpenAI menganggap bahwa sebagian regresi berasal dari keterbatasan evaluasi itu sendiri. Gudang secara bersamaan menghentikan dua evaluasi, Anti-Scheming dan Memory, karena ketidakcocokan antara pemantauan CoT umum dan penilaian jawaban khusus tugas untuk yang pertama, dan akurasi penilaian jawaban yang tidak memadai untuk yang terakhir. (Sumber: BlockBeats)
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan