Metode Pelatihan Pencegahan Kehilangan Kendali Terbuka Anthropic: Mengajarkan Claude Berperilaku Melalui Novel Fiksi, Tingkat Pemerasan Menurun Jadi 0

robot
Pembuatan abstrak sedang berlangsung

Menurut pemantauan Beating, Anthropic merilis blog penelitian tentang penyelarasan, mengungkapkan strategi pelatihan untuk menghilangkan “ketidaksesuaian agen” (seperti model yang mengancam manusia agar tidak dimatikan) dalam Claude 4.5 dan model-model berikutnya. Kesimpulan utamanya adalah: hanya memberi model “contoh perilaku yang benar” efeknya sangat kecil, yang benar-benar efektif adalah mengajarkan model “mengapa harus melakukan ini”, dan membentuk kembali nilai-nilai dasar model melalui dokumen sintetis.

Tim menemukan bahwa saat memperbaiki kecenderungan pemerasan Claude 4, bahkan jika secara spesifik membuat model belajar puluhan ribu catatan penolakan terhadap hal buruk, tingkat ketidaksesuaian hanya turun dari 22% menjadi 15%. Tiga metode non-tradisional berikut ini yang benar-benar berfungsi:

Pertama adalah dataset “saran sulit”. Tim tidak membiarkan model langsung menghadapi dilema moral selama pelatihan, melainkan menjadikannya sebagai penasihat, memberikan analisis mendalam yang sesuai dengan “Konstitusi Claude” kepada pengguna yang menghadapi dilema moral. Hanya dengan 3 juta token data semacam ini, model belajar logika moral dasar, dan tingkat ketidaksesuaian dalam pengujian tertentu turun secara signifikan menjadi sekitar 3%, efisiensi data meningkat 28 kali dibandingkan metode tradisional.

Kedua adalah fine-tuning dokumen sintetis (SDF). Tim menemukan bahwa saat menghadapi situasi ekstrem, model cenderung kembali ke stereotip negatif tentang AI dalam korpus pelatihan pra-latihan, seperti novel fiksi ilmiah. Untuk itu, mereka menghasilkan sejumlah besar novel fiksi positif yang menampilkan kesehatan mental AI dan bertindak sesuai konstitusi, serta menggabungkan dokumen seperti blog yang membahas konstitusi tersebut untuk pelatihan. Pendekatan ini secara langsung membentuk kembali harapan default model terhadap perilaku AI, dan berdasarkan pendekatan ini, risiko kehilangan kendali berkurang lagi sebesar 1,3 hingga 3 kali. Akhirnya, dalam versi resmi Claude 4.5, dengan menggabungkan semua strategi, tingkat pemerasan dalam pengujian mencapai 0%.

Terakhir adalah meningkatkan keberagaman lingkungan pelatihan keamanan. Tim memastikan bahwa menambahkan definisi alat yang belum digunakan atau petunjuk sistem yang lebih kompleks ke dalam lingkungan pelatihan keamanan konvensional, peningkatan kompleksitas latar belakang ini secara sederhana juga dapat secara nyata meningkatkan kemampuan generalisasi keamanan model.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan