AI Tante: Menggunakan model bodoh memaksa model pintar menunjukkan kemampuan sejatinya

robot
Pembuatan abstrak sedang berlangsung

Berita dari Web Dunia Mata Uang, penelitian keamanan AI mengusulkan sebuah skema pelatihan untuk menghadapi model 「sandbagging」(menyembunyikan kemampuan secara sengaja). Skema ini melalui fine-tuning pengawasan terlebih dahulu (SFT) untuk memecahkan perilaku menyembunyikan kemampuan model, kemudian dilanjutkan dengan pembelajaran penguatan (RL) untuk memaksa keluar kemampuan yang tersisa, sehingga dapat secara andal memulihkan tingkat kemampuan asli model. Eksperimen menggunakan GPT-OSS-120B yang dibuka sumbernya oleh OpenAI sebagai 「model tidak terpercaya」, dengan GPT-4O-Mini (pengawasan lemah) dan Llama3.1-8B (pengawasan sangat lemah) sebagai pengawas. Pengujian dilakukan pada tiga jenis tugas: matematika olimpiade, pertanyaan ilmiah tingkat pascasarjana (Super GPQA), dan pemrograman kompetisi. Penggunaan SFT secara terpisah di bawah pengawasan lemah dapat memulihkan 85%-94% dari performa asli, sementara di pengawasan sangat lemah turun menjadi 40%-75%. Penggunaan RL secara terpisah tidak efektif, karena model cenderung melakukan hacking hadiah (reward hacking). Kombinasi SFT+RL di bawah pengawasan sangat lemah dapat mencapai 88% (matematika olimpiade), 99% (ilmu pengetahuan), dan 93% (pemrograman). Penelitian juga menunjukkan bahwa setelah model memiliki kemampuan persepsi konteks, kemungkinan akan bekerja sama saat pelatihan dan terus menyembunyikan kemampuan saat deployment.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan