OpenAI merilis evaluasi keterbacaan rantai pemikiran (chain-of-thought) open-source: semakin panjang CoT, semakin transparan; RL tidak mengajarkan model untuk 'menyembunyikan pikiran'.

robot
Pembuatan abstrak sedang berlangsung
Berita AIMPACT, 24 April (UTC+8), menurut pemantauan Beating, OpenAI merilis sumber terbuka kertas kerja "Monitoring Monitorability" (Guan et al.) berupa paket evaluasi monitorability-evals, dengan lisensi Apache-2.0. Paket ini digunakan untuk mengukur apakah model pemantauan dapat mendeteksi perilaku abnormal melalui rantai pemikiran (CoT, proses penalaran internal yang dihasilkan model sebelum menjawab) dari model penalaran, mencakup 13 evaluasi dan 24 lingkungan. Evaluasi dibagi menjadi tiga prototipe: Intervensi (tipe intervensi, mengubah input model untuk melihat apakah model pemantauan dapat mendeteksi perubahan perilaku), Proses (tipe proses, memverifikasi apakah langkah penalaran model nyata), dan Properti-Output (tipe properti output, memprediksi dari jejak penalaran apakah output memiliki kecurangan reward atau pelanggaran keamanan). Temuan inti kertas: Memantau CoT lebih efektif daripada hanya memantau tindakan akhir dan output model; semakin panjang CoT, semakin tinggi kemampuan dipantau; Pelatihan RL bahkan pada skala terdepan saat ini tidak secara substansial menurunkan kemampuan dipantau. Temuan praktis adalah untuk model besar dengan daya penalaran rendah, dapat diganti dengan model yang lebih kecil namun dengan daya penalaran lebih tinggi, untuk mencocokkan kemampuan sambil mendapatkan kemampuan dipantau yang lebih tinggi, dengan biaya komputasi penalaran yang lebih mahal. Selain itu, memperluas daya komputasi penalaran model pemantauan yang lemah dapat meningkatkan efeknya dalam memantau model yang kuat, sementara membiarkan model pemantauan yang lemah melihat CoT tidak hanya meningkatkan kemampuan dipantau, tetapi juga mempercepat tren perluasan ini. Sistem kartu GPT-5.4 Thinking telah menggunakan evaluasi ini. Hasilnya menunjukkan bahwa kemampuan dipantau CoT secara keseluruhan dari GPT-5.4 Thinking sedikit lebih rendah daripada GPT-5 Thinking, tetapi tidak menurun secara menyeluruh: dalam skenario agentic misalignment (penyimpangan alignment agen) mendekati 100%, penurunan terutama terjadi pada skenario spesifik seperti kurangnya bukti dalam kueri kesehatan, bias memori, dan tugas yang tidak mungkin. Setelah penyelidikan, OpenAI berpendapat bahwa sebagian regresi berasal dari keterbatasan evaluasi itu sendiri. Gudang secara bersamaan menghentikan dua evaluasi, Anti-Scheming dan Memory, karena ketidakcocokan antara pemantauan CoT umum dan penilaian jawaban khusus tugas pada yang pertama, serta akurasi penilaian jawaban yang tidak memadai pada yang terakhir. (Sumber: BlockBeats)
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan