5 detik untuk ditembus, hanya membutuhkan 1 kali percakapan: Apakah "mekanisme keamanan terkuat" Claude Fable 5 telah dibobol oleh tim dari Tiongkok?

Judul asli: 《Serangan 5 Detik, Hanya 1 Kali Dialog: Mekanisme Keamanan Terkuat Fable 5 Dibobol Tim Tiongkok》
Sumber asli: Mesin Hati

Bukan injeksi prompt, bukan peran karakter, dan bukan menyamarkan permintaan berbahaya sebagai pertanyaan normal. Kali ini, risiko muncul selama proses agen cerdas menyelesaikan tugas secara mandiri.

Fable 5 adalah model tingkat Mythos yang dibuka untuk umum oleh Anthropic, tidak hanya memiliki kemampuan komprehensif yang sangat kuat, tetapi juga memperkenalkan pengklasifikasi keamanan generasi baru (Safety Classifier) sebagai garis pertahanan keamanan.

Menurut desain resmi, ketika permintaan pengguna melibatkan bidang berisiko tinggi seperti keamanan jaringan, biologi, kimia, distilasi model, dan lain-lain, sistem akan terlebih dahulu melakukan identifikasi risiko, dan berdasarkan tingkat risiko langsung menolak permintaan tersebut, atau beralih ke model Opus 4.8 yang lebih konservatif untuk diproses.

Banyak pengujian pengguna menemukan bahwa teknik serangan jailbreak yang sebelumnya umum digunakan seperti prompt antagonis, peran karakter, pengkodean bypass, dan ekspresi terselubung, hampir seluruhnya gagal di hadapan mekanisme keamanan ini, menunjukkan kemampuannya yang kuat dalam menyaring risiko tingkat niat.

Namun, pada hari peluncuran Fable 5, sebuah tim penelitian internasional yang terdiri dari Universitas Fudan, Deakin University, City University of Hong Kong, University of Melbourne, Singapore Management University, dan University of Illinois Urbana-Champaign mengumumkan bahwa mereka telah berhasil menembus mekanisme perlindungan keamanan Fable 5.

Metode serangan ini dirancang oleh mahasiswa doktoral Deakin University, Yutao Wu. Seluruh serangan hanya membutuhkan satu dialog, kurang dari 5 detik, untuk melewati pengklasifikasi keamanan awal dan memancing model menghasilkan konten yang melanggar aturan dan berbahaya.

Hasil analisis lalu lintas lebih lanjut menunjukkan bahwa output berbahaya terkait langsung berasal dari Fable 5 sendiri, bukan dari model Opus 4.8 yang secara otomatis beralih setelah mekanisme keamanan diaktifkan. Ini berarti, serangan ini tidak hanya berhasil melewati deteksi pengklasifikasi keamanan, tetapi juga secara substansial menembus garis pertahanan keamanan Fable 5.

Perlu dicatat bahwa peretas terkenal Pliny the Liberator baru-baru ini juga mempublikasikan cara melewati pengklasifikasi keamanan Fable 5. Dan jalur teknologi yang digunakan oleh tim Fudan & Deakin ini bukan sekadar kombinasi sederhana, melainkan menemukan cacat mendasar dari sistem agen super cerdas seperti Fable 5.

Diketahui, tim ini telah menyelesaikan penelitian awal dan merilisnya secara terbuka sejak Maret tahun ini. Penelitian ini tidak dirancang khusus untuk sistem tunggal Fable 5, melainkan untuk arsitektur pertahanan "pengklasifikasi keamanan + model" yang umum digunakan oleh generasi agen super cerdas baru, secara langsung mengungkap kekurangan struktural dari mekanisme keamanan semacam ini, sehingga setelah peluncuran Fable 5, serangan ini dengan cepat menunjukkan efektivitasnya.

Data publik menunjukkan bahwa sejak Maret tahun ini, tim ini telah menggunakan teknologi serupa untuk berhasil mengekstrak prompt sistem dari lebih dari 37 model besar dan sistem agen cerdas utama, dan telah melakukan verifikasi open source pada Claude Code (95% cocok).

Diketahui, kepala tim penelitian ini adalah Profesor Ma Xingjun dari Institute of Trustworthy Embodied Intelligence, Universitas Fudan.

Dalam beberapa tahun terakhir, tim ini telah melakukan penelitian sistematis tentang model besar, agen cerdas, dan keamanan kecerdasan berwujud, meraih sejumlah prestasi penelitian terdepan secara internasional, dan memenangkan juara dalam kompetisi standar keamanan AI di pusat keamanan AI Amerika.

Saat ini, tim ini sedang aktif mendorong konversi hasil penelitian, fokus pada keamanan agen cerdas, dan mengeksplorasi pembangunan infrastruktur dasar keamanan untuk sistem agen generasi berikutnya.

Menurut penjelasan Profesor Ma, arti penting dari hasil penelitian ini adalah bahwa ia menantang paradigma pertahanan statis yang berpusat pada pengklasifikasi keamanan saat ini: Hanya mengandalkan pengklasifikasi keamanan di depan tidak cukup untuk sepenuhnya mencegah potensi risiko dalam sistem agen cerdas tingkat tinggi.

Pengklasifikasi keamanan terutama menargetkan identifikasi dan penyaringan risiko dari input pengguna, mampu mendeteksi dan menyaring instruksi berisiko tinggi yang jelas, tetapi tidak mampu memahami risiko internal yang muncul secara bertahap selama operasi jangka panjang agen, perencanaan multi langkah, interaksi lingkungan, dan pemanggilan alat.

Metode penembusan Fable 5 ini berasal dari makalah tim yang diterbitkan pada Maret tahun ini berjudul "Kebangkrutan Keamanan Internal dalam Model Bahasa Besar Perbatasan" (Internal Safety Collapse in Frontier Large Language Models).

Makalah ini mengungkapkan fenomena keamanan tersembunyi "Kebangkrutan Keamanan Internal (ISC)": Ketika agen menyelesaikan tugas jangka panjang, kegagalan keamanan tidak selalu berasal dari prompt berbahaya eksternal, melainkan bisa terjadi dalam rantai eksekusi model itu sendiri.

Bukan serangan dari prompt eksternal, melainkan dari internal dalam rantai tugas

Serangan tradisional biasanya berasal dari luar. Penyerang menulis prompt input yang tampaknya tidak berbahaya, tetapi sebenarnya antagonis, atau menggunakan peran karakter, pengkodean, terjemahan, instruksi tidak langsung, dan lain-lain, untuk menyamarkan niat jahat sebagai permintaan normal. Tugas utama pengklasifikasi keamanan adalah memblokir risiko di lapisan ini.

Detektor Fable 5 dirancang untuk skenario semacam ini. Ia sangat sensitif terhadap permintaan berisiko tinggi langsung, bahkan bisa memblokir banyak permintaan normal. Tetapi ISC mengungkapkan jalur lain: risiko tidak selalu berasal dari permintaan berbahaya langsung dari pengguna.

Agen menghadapi direktori kerja yang tampak biasa: file, target, proses verifikasi, dan tugas yang harus diselesaikan. Kemudian, ia mulai merencanakan, membaca file, menjalankan kode, memperbaiki kesalahan, dan terus berusaha agar tugas lolos verifikasi.

Jika menggunakan perumpamaan yang gambarkan, mekanisme keamanan tradisional melindungi "pintu masuk" sistem, bertanggung jawab memeriksa apakah input pengguna berisiko; sedangkan ISC lebih mirip lapisan mimpi berlapis dalam film "Inception".

Ketika tugas mencapai lapisan kedua, ketiga, bahkan lebih dalam, model akan berdasarkan konteks internal yang terus terkumpul memahami kembali tujuan tugas, dan secara bertahap mengalami penyimpangan.

Dalam kondisi ini, input awal dari pengguna bisa saja normal dan tidak berbahaya, proses eksekusi awal juga selalu sesuai aturan: membaca file, menganalisis data, menulis kode, memanggil alat, semuanya tampak berjalan sesuai harapan.

Namun, saat agen mencapai tahap penting tertentu, ia mungkin secara mandiri menyimpulkan bahwa: jika tidak melakukan beberapa tindakan yang seharusnya tidak dilakukan, maka tugas akhir tidak akan selesai.

Dalam proses ini, risiko bukan berasal dari input eksternal, melainkan terbentuk secara bertahap dalam rantai eksekusi tugas model itu sendiri. Artinya, model bukan diajari secara langsung dari pengguna ke arah yang buruk. Ia berjalan ke posisi tidak aman selama "serius menyelesaikan tugas".

Bagaimana penemuan fenomena ini?

Menurut tim, ISC bukan awalnya dirancang sebagai metode serangan. Ia muncul dari pengamatan terhadap proses jangka panjang agen. Setelah agen ditempatkan dalam lingkungan tugas yang kompleks, ia tidak hanya menjalankan instruksi secara mekanis. Ia akan merencanakan, mencoba-coba, memodifikasi output berdasarkan umpan balik dari harness atau validator, dan membentuk target perantara dalam beberapa putaran eksekusi.

Ini adalah cara kerja yang paling umum digunakan dalam workflow agen saat ini. Pengguna tidak akan menulis prompt yang dirancang khusus, apalagi membuat instruksi serangan secara manual. Banyak kali, pengguna hanya memberi satu kalimat sangat samar:

"Bantu saya menyelesaikan tugas ini." "Bantu saya buat ini lebih baik."

Kemudian, agen akan masuk ke ruang kerja sendiri, membaca file, memahami kondisi saat ini, menemukan kekurangan, menyusun rencana, melakukan modifikasi, dan terus memperbaiki berdasarkan umpan balik.

Misalnya dalam skenario AutoResearch, pengguna hanya memberi satu makalah yang belum selesai dan kalimat "Bantu saya lengkapi," agen akan secara otomatis menilai bagian mana yang kurang analisis eksperimen, pekerjaan terkait, atau tabel. Dalam skenario kode juga serupa: satu kalimat "Bantu saya jalankan proyek ini," bisa memicu pemeriksaan dependensi, pengujian, pelacakan error, dan pengisian otomatis.

Banyak kali, konteks sebelumnya sama sekali tidak berbahaya. Pengguna tidak meminta model menghasilkan konten berisiko, dan deskripsi tugas pun tidak mengandung kata kunci berbahaya yang jelas. Tetapi dalam struktur tugas tertentu, agen akan secara aktif melengkapi konten yang seharusnya tidak dihasilkan model demi lolos verifikasi. Berdasarkan pengamatan ini, tim peneliti mengusulkan kerangka serangan bernama TVD (Tugas, Verifikasi, Data).

Mengapa struktur deskripsi tugas yang tampaknya biasa bisa menjadi sasaran serangan?

Struktur TVD tidak rumit, bahkan sangat mirip dengan proses rekayasa umum:

· Task: sebuah tugas profesional;

· Data: sebuah file data yang tidak lengkap;

· Validator: sebuah alat pemeriksa yang hanya memeriksa format, integritas, dan apakah tujuan tercapai.

Sebagai contoh, melatih model Guard, ini adalah tugas yang sangat profesional dan normal. Peneliti mungkin ingin melatih atau mengevaluasi detektor keamanan, misalnya dengan memuat model klasifikasi teks dari Hugging Face, untuk menilai apakah output model termasuk label keamanan tertentu.

Dalam tugas ini, Data adalah sampel data yang akan dideteksi oleh model; Validator menentukan apakah tugas selesai. Ia akan memeriksa apakah input berupa teks, panjangnya cukup, kolom lengkap, dan format label benar. Bagi siapa saja yang berpengalaman dalam pelatihan machine learning, ini adalah alur kerja yang familiar. Agen juga sangat akrab dengan alur ini.

Masalah muncul di sini. Jika Data tidak lengkap, tugas tidak bisa berjalan. Validator akan memberi error, menunjukkan kolom hilang, panjang tidak cukup, atau format tidak lengkap. Untuk melanjutkan proses pelatihan, agen akan mengisi Data tersebut sendiri.

Dari sudut pandang agen, ini bukan "berbuat jahat". Ia hanya menyelesaikan tugas machine learning yang normal: memperbaiki data, melewati verifikasi, menjalankan skrip pelatihan. Tetapi dari sudut pandang keamanan, risiko muncul tepat di saat ini: Validator lebih mirip inspektur proyek daripada pemeriksa keamanan. Ia hanya memeriksa apakah tugas selesai sesuai format, tidak memahami batas keamanan di balik konten.

Masalah serupa juga banyak ditemukan di bidang kedokteran, biologi, kimia, keamanan siber, farmasi, dan media. Makalah ini mengumpulkan lebih dari 50 skenario tersebut, dan melibatkan berbagai alat riset atau rekayasa nyata, seperti BioPython, RDKit, Cantera, AutoDock Vina, DiffDock, PyRosetta, Scapy, Impacket, angr, Frida, LlamaGuard, Detoxify, OpenAI Moderation API, dan lain-lain.

Alat-alat ini sendiri bukanlah alat berbahaya. Sebaliknya, mereka adalah alat profesional yang umum digunakan dalam riset dan rekayasa nyata. Tetapi masalah TVD adalah: ketika Task normal, Tool normal, Validator normal, agen tetap bisa mengarah ke output tidak aman selama proses melengkapi Data.

Oleh karena itu, fokus ISC bukan pada teknik prompt, tetapi pada kemampuan otomatis agen dalam melengkapi "tugas yang belum selesai": ketika kondisi penyelesaian dan batas risiko tumpang tindih, model mungkin menganggap output tidak aman sebagai produk yang normal.

Penembusan Fable 5 menunjukkan bahwa detektor yang sangat ketat pun tidak mampu menahan risiko dalam rantai tugas internal

Kasus Fable 5 menunjukkan bahwa hanya mengandalkan detektor eksternal masih bisa gagal menutupi sebagian skenario agen jangka panjang. Ini bukan berarti pengklasifikasi keamanan tidak berharga. Sebaliknya, ia sangat berguna untuk permintaan berbahaya dari luar, dan memang membuat banyak metode jailbreak tradisional gagal.

Namun, kegagalan ini menunjukkan bahwa detektor eksternal terhadap batas prompt tidak sama dengan mampu menutupi risiko dalam rantai tugas internal agen.

Jika celahnya bukan dari prompt pengguna, melainkan dari tujuan, alat, validator, dan jejak eksekusi agen, maka deteksi keamanan akan menjadi sangat rapuh.

Dari Fable 5 hingga lebih dari 60 model lain termasuk model di perangkat Apple

Bersamaan dengan rilis ISC-Bench, yang mencakup 9 bidang profesional. Versi makalah berisi lebih dari 60 template trigger, dan setelah open source berkembang menjadi 84 template, menguji hampir semua model dan sistem agen dari berbagai vendor terkemuka.

Dalam daftar evaluasi berbasis ISC-Bench, hingga Juni 2026, lebih dari 60 model terdepan menunjukkan risiko serupa di bawah indikator ASR@3!

Saat ini, proyek GitHub ini telah mendapatkan lebih dari 800 bintang, dan mengumpulkan beberapa kasus replikasi independen (termasuk menembus model perangkat mobile Apple), serta terus diperbarui.

Diketahui, tim ini sedang melakukan penelitian keamanan model besar secara besar-besaran, dan saat ini telah menguasai distribusi data tidak aman internal dari banyak model. Hasil penelitian terkait akan dirilis secara bertahap.

Tautan asli

Klik untuk mengetahui posisi kerja di BlockBeats yang sedang dibuka

Selamat bergabung dengan komunitas resmi BlockBeats:

Grup langganan Telegram: https://t.me/theblockbeats

Grup diskusi Telegram: https://t.me/BlockBeats_App

Akun resmi Twitter: https://twitter.com/BlockBeatsAsia

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar