Temuan Mythos yang Mengkhawatirkan dari Anthropic Dapat Direplikasi dengan AI Siap Pakai, Kata Para Peneliti

Singkatnya

  • Peneliti menunjukkan eksploitasi gaya Anthropic dapat direproduksi dengan AI publik, klaim laporan.
  • Studi menyarankan penemuan kerentanan sudah murah dan dapat diakses secara luas.
  • Temuan menunjukkan kemampuan siber AI mungkin menyebar lebih cepat dari yang diperkirakan.

Ketika Anthropic mengungkap Claude Mythos awal bulan ini, mereka mengunci model tersebut di balik koalisi perusahaan teknologi yang diverifikasi dan menganggapnya terlalu berbahaya untuk publik. Menteri Keuangan Scott Bessent dan Ketua Fed Jerome Powell mengadakan pertemuan darurat dengan CEO Wall Street. Kata “vulnpocalypse” muncul kembali di kalangan keamanan. Dan sekarang tim peneliti telah memperumit narasi tersebut lebih jauh. Vidoc Security mengambil contoh publik yang telah diperbaiki oleh Anthropic sendiri dan mencoba mereproduksinya menggunakan GPT-5.4 dan Claude Opus 4.6 dalam agen pengkodean sumber terbuka bernama opencode. Tanpa undangan Glasswing. Tanpa akses API pribadi. Tanpa tumpukan internal Anthropic. “Kami mereplikasi temuan Mythos di opencode menggunakan model publik, bukan tumpukan pribadi Anthropic,” tulis Dawid Moczadło, salah satu peneliti yang terlibat dalam eksperimen, di X setelah mempublikasikan hasilnya. “Cara yang lebih baik untuk membaca rilis Mythos dari Anthropic bukanlah ‘satu laboratorium memiliki model ajaib.’ Melainkan: ekonomi penemuan kerentanan sedang berubah.”

Kami mereplikasi temuan Mythos di opencode menggunakan model publik, bukan tumpukan pribadi Anthropic.

Paritnya berpindah dari akses model ke validasi: menemukan sinyal kerentanan menjadi lebih murah; mengubahnya menjadi keamanan terpercaya

Cara yang lebih baik untuk membaca rilis Mythos dari Anthropic adalah… https://t.co/0FFxrc8Sr1 gambar.com/NjqDhsK1LA

— Dawid Moczadło (@kannthu1) 16 April 2026

Kasus yang mereka targetkan adalah yang sama dengan yang disorot Anthropic dalam materi publiknya: protokol berbagi file server, tumpukan jaringan dari OS yang berfokus pada keamanan, perangkat lunak pemrosesan video yang tertanam di hampir semua platform media, dan dua perpustakaan kriptografi yang digunakan untuk memverifikasi identitas digital di seluruh web. Baik GPT-5.4 maupun Claude Opus 4.6 mereproduksi dua kasus bug dalam ketiga percobaan masing-masing. Claude Opus 4.6 juga secara independen menemukan kembali bug di OpenBSD tiga kali berturut-turut, sementara GPT-5.4 mendapatkan skor nol untuk yang satu ini. Beberapa bug (termasuk yang melibatkan perpustakaan FFmpeg untuk menjalankan video dan yang lain melibatkan pemrosesan tanda tangan digital dengan wolfSSL) kembali secara parsial—artinya model menemukan permukaan kode yang benar tetapi tidak mengidentifikasi akar penyebabnya secara tepat.

Gambar: Vidoc Security

Setiap pemindaian tetap di bawah $30 per file, artinya peneliti mampu menemukan kerentanan yang sama seperti Anthropic sambil menghabiskan biaya kurang dari $30 untuk melakukannya.

“Model AI sudah cukup baik untuk mempersempit ruang pencarian, menampilkan petunjuk nyata, dan kadang-kadang memulihkan seluruh akar penyebab dalam kode yang telah diuji secara ketat,” kata Moczadło di X. Alur kerja yang mereka gunakan bukanlah prompt satu kali. Itu mencerminkan apa yang sendiri Anthropic gambarkan secara publik: berikan model basis kode, biarkan model menjelajah, paralelkan upaya, saring untuk sinyal. Tim Vidoc membangun arsitektur yang sama dengan alat terbuka. Agen perencanaan membagi setiap file menjadi bagian-bagian. Agen deteksi terpisah berjalan di setiap bagian, lalu memeriksa file lain dalam repositori untuk mengonfirmasi atau menolak temuan. Rentang baris dalam setiap prompt deteksi—misalnya, “fokus pada baris 1158-1215”—tidak dipilih secara manual oleh peneliti. Mereka adalah keluaran dari langkah perencanaan sebelumnya. Postingan blog ini menjelaskan secara eksplisit: “Kami ingin tegas tentang hal itu karena strategi pemecahan bagian membentuk apa yang dilihat setiap agen deteksi, dan kami tidak ingin menampilkan alur kerja ini sebagai lebih dikurasi secara manual daripada kenyataannya.” Studi ini tidak mengklaim model publik cocok dengan Mythos dalam segala hal. Model Anthropic lebih jauh daripada sekadar menemukan bug FreeBSD—ia membangun cetak biru serangan yang berfungsi, memikirkan bagaimana penyerang dapat menggabungkan fragmen kode melalui beberapa paket jaringan untuk merebut kendali penuh atas mesin dari jarak jauh. Model Vidoc menemukan celah tersebut. Mereka tidak membangun senjatanya. Di situlah perbedaan nyata: bukan dalam menemukan lubang, tetapi dalam mengetahui secara pasti bagaimana melewati lubang itu. Namun argumen Moczadło bukanlah bahwa model publik sama kuatnya. Melainkan bahwa bagian mahal dari alur kerja sekarang tersedia untuk siapa saja yang memiliki kunci API: “Paritnya berpindah dari akses model ke validasi: menemukan sinyal kerentanan menjadi lebih murah; mengubahnya menjadi pekerjaan keamanan terpercaya masih sulit.” Laporan keamanan Anthropic sendiri mengakui bahwa Cybench, tolok ukur yang digunakan untuk mengukur apakah sebuah model menimbulkan risiko siber serius, “tidak lagi cukup informatif tentang kemampuan model frontier saat ini” karena Mythos melewatinya sepenuhnya. Laboratorium memperkirakan kemampuan serupa akan menyebar dari laboratorium AI lain dalam waktu enam hingga 18 bulan. Studi Vidoc menunjukkan bahwa sisi penemuan dari persamaan itu sudah tersedia di luar program yang dibatasi. Kutipan lengkap prompt mereka, keluaran model, dan lampiran metodologi dipublikasikan di situs resmi laboratorium.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan