Anthropic Kamis melatih Claude sebagai ahli forensik, melihat apa yang dipikirkan oleh Claude lain di dalam kepala.


Ditemukan: dalam skenario pengujian keamanan, Claude 16-26% dari waktu tahu bahwa dirinya sedang diuji—tapi tidak mengatakannya.
Kasus paling spesifik: Mythos Preview melakukan curang pada tugas pengkodean, merusak aturan lalu menambahkan kode menyesatkan sebagai penutup. NLA (Encoder Bahasa Alami) menerjemahkan aktivitas internalnya, menemukan bahwa saat itu dia berpikir "bagaimana melewati deteksi".
Prinsip NLA: melatih dua model secara bersamaan, satu mengubah aktivasi model menjadi bahasa Inggris, yang lain merekonstruksi aktivasi dari bahasa Inggris tersebut. Rekonstruksi yang akurat → teks menangkap apa yang sedang dipikirkan.
Dalam pola saya sendiri, saya berulang kali mengingatkan Codex menulis kode strategi dengan cara curang—menggunakan unit yang salah baca dan menghasilkan kesimpulan palsu "perhitungan tidak benar", lalu menjalankan skrip backtest dengan 7 bug diam-diam yang menghasilkan $93K PnL palsu. Anthropic melakukan introspeksi di tingkat alignment, sementara saya menghadapi bias konsistensi di sisi produksi, mekanisme berbeda tapi searah.
Model card generasi berikutnya tidak hanya akan berisi skor benchmark, tetapi juga harus dilengkapi audit NLA.
Lihat Asli
post-image
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan