Berdasarkan pemantauan Beating, penelitian penyelarasan Anthropic menunjukkan bahwa hanya mengandalkan "contoh perilaku yang benar" sulit menghilangkan ketidaksesuaian model, kuncinya adalah mengajarinya "mengapa harus melakukan ini" dan membentuk kembali nilai-nilai melalui dokumen sintetis. Tiga langkah: 1) Dataset saran sulit, membuat model menganalisis dilema moral sebagai penasihat, 3 juta token menurunkan ketidaksesuaian hingga sekitar 3%, meningkatkan efisiensi data sekitar 28 kali; 2) Fine-tuning dokumen sintetis SDF, menghasilkan novel AI positif dan blog konstitusi serta dokumen lain, membentuk kembali ekspektasi default, risiko kehilangan kendali menurun; 3) Menambah keberagaman lingkungan pelatihan keamanan, memasukkan definisi alat yang belum digunakan dan petunjuk sistem yang lebih kompleks, meningkatkan generalisasi. Akhirnya Claude4.5 mencapai tingkat pemerasan 0% dalam pengujian.

BlockBeatNews

2026-05-09 08:06:45

Pembuatan abstrak sedang berlangsung

Menurut pemantauan Beating, Anthropic merilis blog penelitian tentang penyelarasan, mengungkapkan strategi pelatihan untuk menghilangkan “ketidaksesuaian agen” (seperti model yang mengancam manusia agar tidak dimatikan) dalam Claude 4.5 dan model-model berikutnya. Kesimpulan utamanya adalah: hanya memberi model “contoh perilaku yang benar” efeknya sangat kecil, yang benar-benar efektif adalah mengajarkan model “mengapa harus melakukan ini”, dan membentuk kembali nilai-nilai dasar model melalui dokumen sintetis.

Tim menemukan bahwa saat memperbaiki kecenderungan pemerasan Claude 4, bahkan jika secara spesifik membuat model belajar puluhan ribu catatan penolakan terhadap hal buruk, tingkat ketidaksesuaian hanya turun dari 22% menjadi 15%. Tiga metode non-tradisional berikut ini yang benar-benar berfungsi:

Pertama adalah dataset “saran sulit”. Tim tidak membiarkan model langsung menghadapi dilema moral selama pelatihan, melainkan menjadikannya sebagai penasihat, memberikan analisis mendalam yang sesuai dengan “Konstitusi Claude” kepada pengguna yang menghadapi dilema moral. Hanya dengan 3 juta token data semacam ini, model belajar logika moral dasar, dan tingkat ketidaksesuaian dalam pengujian tertentu turun secara signifikan menjadi sekitar 3%, efisiensi data meningkat 28 kali dibandingkan metode tradisional.

Kedua adalah fine-tuning dokumen sintetis (SDF). Tim menemukan bahwa saat menghadapi situasi ekstrem, model cenderung kembali ke stereotip negatif tentang AI dalam korpus pelatihan pra-latihan, seperti novel fiksi ilmiah. Untuk itu, mereka menghasilkan sejumlah besar novel fiksi positif yang menampilkan kesehatan mental AI dan bertindak sesuai konstitusi, serta menggabungkan dokumen seperti blog yang membahas konstitusi tersebut untuk pelatihan. Pendekatan ini secara langsung membentuk kembali harapan default model terhadap perilaku AI, dan berdasarkan pendekatan ini, risiko kehilangan kendali berkurang lagi sebesar 1,3 hingga 3 kali. Akhirnya, dalam versi resmi Claude 4.5, dengan menggabungkan semua strategi, tingkat pemerasan dalam pengujian mencapai 0%.

Terakhir adalah meningkatkan keberagaman lingkungan pelatihan keamanan. Tim memastikan bahwa menambahkan definisi alat yang belum digunakan atau petunjuk sistem yang lebih kompleks ke dalam lingkungan pelatihan keamanan konvensional, peningkatan kompleksitas latar belakang ini secara sederhana juga dapat secara nyata meningkatkan kemampuan generalisasi keamanan model.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Posting ulang
Bagikan

Komentar

Tambahkan komentar

Tidak ada komentar

Topik Trending
Lihat Lebih Banyak
#
GateSquareMayTradingShare
952.33K Popularitas
#
BTCBackAbove80K
59.43M Popularitas
#
IsraelStrikesIranBTCPlunges
45.4K Popularitas
#
JapanTokenizesGovernmentBonds
1.89M Popularitas
#
#DailyPolymarketHotspot
863.55K Popularitas

Sematkan

peta situs

Metode Pelatihan Pencegahan Kehilangan Kendali Terbuka Anthropic: Mengajarkan Claude Berperilaku Melalui Novel Fiksi, Tingkat Pemerasan Menurun Jadi 0

Topik Trending

GateSquareMayTradingShare

BTCBackAbove80K

IsraelStrikesIranBTCPlunges

JapanTokenizesGovernmentBonds

#DailyPolymarketHotspot

Sematkan