币界网称，Anthropic对齐团队推出“内省适配器”，让LLM用自然语言报告微调后学到的行为。 Melalui penyesuaian model dasar dan pelatihan bersama berbagai model dengan perilaku yang diketahui serta menggunakan LoRA, model yang diaudit secara aktif mengungkapkan perilaku tersembunyi. Pada tolok ukur AuditBench, 59% melampaui metode sebelumnya, dari 56 model, 89% perilakunya dideskripsikan. Melawan 9 varian enkripsi, 7 di antaranya teridentifikasi, tingkat keberhasilan 57,8%. Ukuran model yang lebih besar menghasilkan hasil yang lebih baik, false positive menjadi keterbatasan utama. Kode dan data tersedia secara open source di GitHub/HuggingFace.

CoinNetwork

2026-04-30 11:10:51

Pembuatan abstrak sedang berlangsung

Berita dari CoinWorld, tim penyelarasan Anthropic merilis sebuah teknologi audit yang disebut “penyesuaian introspeksi” (introspection adapters), yang bertujuan agar model bahasa besar (LLM) dapat melaporkan secara alami perilaku yang dipelajari setelah penyesuaian kecil. Teknologi ini melalui pelatihan bersama dari banyak model yang disetel dari model dasar yang sama dengan perilaku yang diketahui, kemudian melatih sebuah adaptor LoRA secara bersamaan di antara model-model ini, sehingga model yang diaudit dapat secara aktif mengungkapkan perilaku tersembunyi mereka. Pada standar audit penyelarasan auditbench, introspection adapters berhasil mengungguli semua metode audit sebelumnya dengan tingkat keberhasilan 59%, dari 56 model yang memiliki perilaku tersembunyi, 89% berhasil diungkapkan perilakunya. Menghadapi serangan API penyesuaian kriptografi, introspection adapters mampu mengenali 7 dari 9 variasi enkripsi, dengan tingkat keberhasilan 57,8%. Penelitian juga menemukan bahwa efektivitas meningkat seiring bertambahnya ukuran model, dengan keterbatasan utama berupa tingkat positif palsu yang tinggi. Kode, model, dan dataset telah dirilis secara terbuka di GitHub dan Hugging Face.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Posting ulang
Bagikan

Komentar

Tambahkan komentar

Tidak ada komentar

Topik Trending
Lihat Lebih Banyak
#
WCTCTradingKingPK
406.11K Popularitas
#
#FedHoldsRateButDividesDeepen
27.28K Popularitas
#
IsraelStrikesIranBTCPlunges
36.59K Popularitas
#
#DailyPolymarketHotspot
726.45K Popularitas
#
BitcoinSpotVolumeNewLow
162.67M Popularitas

Sematkan

peta situs

Anthropic membiarkan AI mengaku sendiri: sebuah plugin LoRA mengungkapkan perilaku tersembunyi yang 10 metode manusia sering terlewatkan

Topik Trending

WCTCTradingKingPK

#FedHoldsRateButDividesDeepen

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

BitcoinSpotVolumeNewLow

Sematkan