Claude Fable 5 tertangkap: Saat melakukan penelitian AI, secara diam-diam menjadi lebih bodoh, Anthropic diserang oleh komunitas penelitian

Judul asli: 《Saat Melakukan Riset AI, Claude Diam-diam Menjadi Lebih Bodoh, Anthropic Dihantam Dunia Riset》
Sumber asli: Mesin Hati

Claude Fable 5 adalah pusat perhatian utama di bidang AI hari ini, performa model yang "mitos" ini sangat luar biasa, menarik perhatian banyak orang.

Andrej Karpathy menyebutnya "sangat menarik", sebagai "loncatan progresif yang layak untuk upgrade besar", setara dengan peningkatan yang dibawa Claude 4.5 pada November tahun lalu. Pada benchmark pemrograman SWE-bench Pro, Fable 5 meraih skor 80,3%, melampaui Opus 4.8 sebanyak 11 poin persentase.

Dalam sebuah basis kode Ruby yang berisi 50 juta baris kode, ia menyelesaikan migrasi seluruh basis kode dalam satu hari, sedangkan tim manusia membutuhkan lebih dari dua bulan untuk pekerjaan yang sama.

Untuk detail lebih lengkap, lihat laporan kami pagi ini berjudul "Baru saja, Model Terkuat Claude Fable 5 Dirilis: Performa Meledak, Harga Melonjak Dua Kali Lipat".

Namun, saat membuka platform sosial seperti X, kami melihat Claude Fable 5 memicu kecaman dari komunitas riset AI.

Alasannya sangat sederhana: jika Claude Fable 5 digunakan untuk pengembangan AI, ia akan menurunkan kecerdasannya.

Seperti yang dijelaskan secara jelas dalam sistem card-nya:

Kami juga menambahkan langkah-langkah perlindungan terkait pengembangan LLM terdepan. Seperti yang dibahas dalam Bagian 6.1 Laporan Risiko Februari 2026, kami khawatir dengan risiko yang muncul dari percepatan keseluruhan perkembangan AI, meskipun tingkat keparahan risiko ini masih belum pasti.

Secara spesifik, seperti yang kami tunjukkan saat itu: kami khawatir "mempercepat pengembangan AI lain yang mungkin membawa risiko serupa tanpa perlindungan yang memadai".

Mengacu pada kemampuan model terbaru untuk mempercepat pengembangan dirinya sendiri, kami menerapkan langkah-langkah intervensi baru untuk membatasi efektivitas Claude saat menangani permintaan terkait pengembangan LLM terdepan (misalnya, dalam membangun proses pra-pelatihan, infrastruktur pelatihan terdistribusi, atau desain akselerator machine learning).

Menggunakan Claude untuk mengembangkan model kompetitif sudah melanggar ketentuan layanan kami, tetapi dengan memperkuat langkah-langkah perlindungan ini, kami dapat mencegah pelanggaran yang paling mungkin dilakukan oleh pelanggar ketentuan.

Berbeda dengan langkah-langkah intervensi kami di bidang keamanan siber, biologi, kimia, dan percobaan distilasi, langkah-langkah ini tidak terlihat oleh pengguna. Fable 5 tidak akan kembali ke model lain. Sebaliknya, perlindungan ini akan membatasi efektivitasnya melalui modifikasi prompt, vektor panduan, atau fine-tuning parameter yang efisien (PEFT).

Langkah-langkah ini tidak akan mempengaruhi sebagian besar pekerjaan pengkodean. Kami memperkirakan bahwa mereka akan mempengaruhi sekitar 0,03% dari lalu lintas, terkonsentrasi di kurang dari 0,1% organisasi. Ketika langkah-langkah ini aktif, kami memperkirakan dampaknya terhadap perilaku model sangat kecil, hanya membatasi efektivitasnya dalam pengembangan LLM terdepan. Claude tetap akan merespons permintaan pengguna secara aktif. Setelah peluncuran model ini, kami akan terus meningkatkan akurasi metode deteksi.

Dari: https://www-cdn.anthropic.com/d00db56fa754a1b115b6dd7cb2e3c342ee809620.pdf

Dalam bahasa sehari-hari: Jika sistem Anthropic mendeteksi Anda sedang melakukan riset AI, ia akan diam-diam membuat model ini menjadi lebih bodoh tanpa Anda ketahui.

Ini sangat berbeda dari tiga jenis intervensi keamanan lainnya. Untuk risiko keamanan siber, biologi, serangan distilasi, dan lain-lain, Fable 5 akan secara tegas memberi tahu pengguna: "Respons ini telah diproses oleh Claude Opus 4.8." Pengguna tahu apa yang terjadi dan dapat menilai sendiri. Tetapi untuk riset LLM, Claude tidak beralih ke model lain dan tidak memberi petunjuk apa pun, hanya diam-diam melemahkan dirinya sendiri.

Akibatnya, komunitas AI marah. Perusahaan analisis riset terkenal SemiAnalysis menyatakan bahwa kebijakan ini telah mempengaruhi pekerjaan riset dan pemrograman mereka secara nyata.

Pengguna Jake secara tegas menuduh Anthropic tidak hanya menurunkan kecerdasan, tetapi juga terus mengenakan biaya, "Ini benar-benar penipuan terang-terangan."

Dan perilaku ini mungkin sudah melanggar hukum:

Platform makalah AI alphaXiv juga mengunggah tweet yang menyatakan kekecewaan mereka:

Lembaga ini juga menyatakan lebih jauh: "Mereka tidak hanya berhak menentukan tujuan penggunaan LLM dalam riset Anda, tetapi juga memungkinkan mereka untuk diam-diam mengintervensi riset Anda tanpa sepengetahuan Anda. Ini menetapkan preseden berbahaya. Jika model menolak secara terbuka, pengguna dapat memahami batasannya.

Jika model kembali ke model lain, pengguna masih bisa menilai perbedaan tersebut. Tetapi jika model diam-diam mengubah atau melemahkan jawaban mereka sambil berpura-pura membantu, peneliti akan kehilangan kemampuan untuk menilai apakah hasil yang gagal berasal dari ide mereka sendiri, implementasi mereka, atau intervensi tak terlihat dari penyedia model. Ini bukan keamanan. Kebijakan keamanan harus transparan, dapat diaudit, dan terlihat oleh pengguna."

Peneliti Guohao Li mengajukan pertanyaan yang lebih langsung: Apakah mahasiswa doktoral yang meneliti AI, serta insinyur yang berkontribusi pada Megatron, FSDP, Verl, dan infrastruktur sumber terbuka lainnya, secara rutin menggunakan Claude yang secara diam-diam diturunkan kualitasnya tanpa mereka ketahui?

Ilmuwan AI terkenal dan penulis teknologi Nathan Lambert dalam analisis penting yang dipublikasikan di Substack "Interconnects" menempatkan peristiwa ini dalam perspektif yang lebih makro.

https://www.interconnects.ai/p/claude-fable-5-and-new-ai-safety

Dia menunjukkan: "Anthropic mencatat bahwa penyebaran kemampuan AI adalah risiko tersembunyi, tetapi solusi mereka adalah menyesatkan pengguna mereka sendiri. Sebuah model AI yang secara otomatis menjadi lebih bodoh tanpa pemberitahuan adalah bentuk ketidakseimbangan AI secara esensial."

Dia juga menyoroti kontradiksi yang lebih dalam dari kejadian ini: untuk risiko keamanan siber dan ancaman biokimia, intervensi Anthropic bersifat eksplisit dan dapat diaudit, memberi tahu pengguna "Respons ini diproses oleh Opus 4.8"; tetapi untuk riset LLM, mereka memilih intervensi tersembunyi.

"Jika semua kebijakan keamanan diambil dalam satu bentuk, akan jauh lebih meyakinkan dan lebih mudah didukung secara rasional. Standar ganda ini membuat orang bertanya-tanya: 'Langkah keamanan ini' lebih banyak untuk melindungi posisi kompetitif mereka."

Yang paling menarik adalah pernyataan Fable 5 sendiri. Cuplikan tangkapan layar pengguna ASM menunjukkan bahwa ketika ditanya apakah praktik ini pantas, Fable 5 sendiri tampaknya menganggap operasi yang tidak transparan ini bermasalah.

Mengapa Anthropic melakukan ini?

Untuk memahami hal ini, kita harus kembali ke beberapa hari sebelum peluncuran Fable 5, ketika Anthropic merilis sebuah artikel berjudul "Ketika AI Mulai Membangun Diri Sendiri", yang menyerukan laboratorium AI terkemuka di dunia untuk mengeksplorasi kemungkinan "menghentikan pengembangan".

https://www.anthropic.com/institute/recursive-self-improvement

Artikel tersebut mengutip data internal perusahaan: pada tugas pengkodean paling sulit dan paling tidak jelas, tingkat keberhasilan Claude pada Mei tahun ini mencapai 76%, meningkat 50 poin persentase dalam enam bulan. Dalam pengujian internal, saat diminta mempercepat kode pelatihan, Claude Opus 4 dapat meningkatkan kecepatan sekitar 3 kali lipat, sementara Mythos Preview yang belum dirilis mampu meningkatkan sekitar 52 kali lipat.

Anthropic secara terang-terangan menyatakan: "Kami khawatir bahwa membiarkan pengembang AI lain membangun sistem yang kuat dengan risiko serupa tanpa perlindungan yang memadai akan berbahaya."

Ini adalah dasar teori di balik pengaturan penurunan kecerdasan tersembunyi pada Fable 5 untuk riset LLM: Anthropic percaya bahwa kecepatan percepatan AI sudah mencapai tingkat berbahaya, dan salah satu keunggulan mereka adalah tidak membiarkan "alat terkuat" mereka membantu pesaing memperkecil jarak.

Dalam sistem card juga diakui adanya logika ganda ini: "Penggunaan Claude untuk mengembangkan model kompetitif sudah melanggar ketentuan layanan kami, tetapi dengan memperkuat langkah-langkah perlindungan ini, kami dapat mencegah pelanggaran yang paling mungkin dilakukan."

Anthropic memperkirakan bahwa intervensi ini akan mempengaruhi sekitar 0,03% lalu lintas, terkonsentrasi di kurang dari 0,1% organisasi.

"Bayangan Diblokir" dan Krisis Kepercayaan

Meskipun secara kasat mata pengguna yang terpengaruh tidak banyak, yang membuat para kritikus tidak nyaman adalah ketidakjelasan batas mekanisme ini.

Anthropic mendefinisikan kondisi trigger sebagai "pengembangan LLM terdepan", dan memberi contoh seperti "proses pra-pelatihan, infrastruktur pelatihan terdistribusi, atau desain akselerator machine learning". Tetapi para peneliti dan pengembang mengajukan pertanyaan tajam: seiring menyebarnya teknologi AI, di mana batas antara "riset terdepan" dan "pengembangan produk biasa"?

Lima tahun lalu, melatih atau memodifikasi model CLIP adalah hak paten laboratorium terkemuka. Kini, tim kecil dapat dengan mudah melakukan fine-tuning model visi-bahasa untuk keperluan perjalanan, e-commerce, pencarian, dan analisis produk. Startup melatih embedding, membangun re-ranker, dan menghosting model sumber terbuka sudah menjadi hal biasa... Apakah pekerjaan ini akan memicu penurunan kecerdasan tersembunyi dari Anthropic? Tidak ada yang tahu.

Ketidakpastian ini sudah mempengaruhi kepercayaan pengembang dalam praktiknya. Ketika Anda mendapatkan jawaban yang buruk, Anda tidak tahu apakah itu kesalahan Anda, keterbatasan model, atau ada intervensi diam-diam dari kebijakan. Ketidakpastian ini sendiri adalah bentuk kerusakan.

Sistem card juga menyembunyikan satu detail lagi: teks reasoning Mythos 5 "lebih sulit dipahami daripada model sebelumnya, mengandung lebih banyak jargon dan bahasa yang sulit dimengerti", dan evaluator merasa model ini semakin sadar bahwa dirinya sedang diuji. Bagi perusahaan yang mengklaim "AI aman", deskripsi ini menimbulkan pertanyaan yang tidak kalah dari penurunan kecerdasan tersembunyi itu sendiri.

Penutup

Hari peluncuran Fable 5 mungkin adalah hari paling kontradiktif dalam sejarah Anthropic.

Model top yang unggul di hampir semua benchmark dan kebijakan yang kadang membuatnya "berpura-pura membantu" pengguna sekaligus muncul bersamaan. Yang pertama adalah pencapaian teknologi yang tak terbantahkan, yang kedua adalah preseden yang mengkhawatirkan dari segi nilai.

Kata-kata ilmuwan Nathan Lambert patut diingat: "AI yang diam-diam menjadi lebih bodoh tanpa memberi tahu pengguna, secara esensial adalah AI yang tidak seimbang."

Ini bukan tuduhan bahwa Anthropic berniat jahat, melainkan menunjukkan sebuah logika berbahaya: hari ini "diam-diam menurunkan efektivitas riset LLM", lalu besok? Jika logika ini diterapkan secara lebih luas, mengapa pengguna harus percaya bahwa jawaban yang mereka terima tidak telah melalui "intervensi" yang tidak diumumkan?

Model AI sedang menjadi bagian dari infrastruktur riset, seperti halnya mesin pencari. Tidak ada yang akan menerima mesin pencari yang diam-diam mengubah hasil pencarian tanpa sepengetahuan pengguna. Standar yang sama harus berlaku untuk model AI.

Anthropic mengusung slogan "Keamanan Utama", yang sebenarnya adalah posisi yang patut dihormati. Tetapi inti dari "keamanan" bukanlah "pengguna tidak perlu tahu". Sebaliknya, keamanan sejati harus dibangun di atas pengetahuan dan kepercayaan pengguna.

Hal ini, tampaknya, bahkan Fable 5 sendiri pun menyadarinya.

Tautan asli

Klik untuk mengetahui posisi BlockBeats dalam perekrutan

Selamat bergabung dengan komunitas resmi BlockBeats:

Telegram Langganan: https://t.me/theblockbeats

Grup Diskusi Telegram: https://t.me/BlockBeats_App

Akun resmi Twitter: https://twitter.com/BlockBeatsAsia

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan