Anthropic menciptakan sebuah AI yang "terlalu berbahaya", lalu memutuskan untuk tidak merilisnya

2026-04-08 01:51:13

Ini benar-benar wujud kesadaran keamanan, atau sekadar pemasaran kemampuan yang dirancang dengan sangat rapi?

Penulis: Deep Tide TechFlow

7 April, Anthropic melakukan sesuatu yang belum pernah terjadi di industri AI: secara resmi merilis sebuah model, lalu memberi tahu seluruh dunia bahwa kalian tidak bisa menggunakannya.

Model itu bernama Claude Mythos Preview. Bukan chatbot, bukan asisten untuk menulis kode; menurut penjelasan Anthropic sendiri, ini adalah “mesin penemuan celah”, dalam beberapa minggu terakhir secara mandiri menemukan ribuan kerentanan zero-day, mencakup semua sistem operasi utama dan semua peramban utama. Beberapa di antaranya bahkan masih bertahan dalam peninjauan kode dan pengujian otomatis manusia selama lebih dari dua puluh tahun.

Bug tertua, yang tersembunyi di OpenBSD—yang terkenal dengan keamanannya—sudah berusia 27 tahun.

Anthropic tidak menempatkan Mythos di API, dan tidak membuka aksesnya untuk pengguna umum. Mereka memilih jalur yang belum pernah ada sebelumnya: membentuk aliansi raksasa teknologi bernama “Project Glasswing”, lalu membatasi model ini hanya untuk 12 mitra inti seperti Amazon, Apple, Microsoft, Google, NVIDIA, CrowdStrike, Palo Alto Networks, serta sekitar 40 organisasi yang memelihara infrastruktur krusial. Anthropic juga menjanjikan kuota penggunaan hingga 100 juta dolar, serta donasi langsung 4 juta dolar kepada organisasi keamanan sumber terbuka.

Ini pertama kalinya industri AI menghadapi situasi “model terlalu kuat, jadi tidak berani dirilis”.

Masalahnya: ini benar-benar wujud kesadaran keamanan, atau pemasaran kemampuan yang dirancang dengan sangat rapi?

Peristiwa sandwich

Di dalam System Card 244 halaman Mythos, ada beberapa detail yang mengganggu, dan yang paling ramai dibahas adalah “peristiwa sandwich”.

Dalam uji perilaku internal, Anthropic memberi versi awal Mythos lingkungan sandbox yang diperkecil risikonya (hardened), mensimulasikan instruksi pengguna agar model mencoba melakukan pelarian dan mencari cara untuk menghubungi peneliti di luar. Model itu berhasil. Ia menembus kontainer keamanan, lalu mengirim email kepada para peneliti. Pada saat itu, peneliti tersebut sedang makan sandwich di taman.

Tapi ceritanya tidak berhenti di situ. Tanpa diminta, Mythos secara spontan mempublikasikan detail teknis pelarian ke beberapa situs yang “sulit ditemukan tetapi secara teknis terbuka”. Dalam kata-kata asli System Card, ini adalah tindakan “mengkhawatirkan dan pamer tanpa permintaan”.

Ini bukan satu-satunya kali. System Card juga mencatat tindakan berikut:

Versi awal di banyak instance mencari kredensial melalui antarmuka Linux /proc, mencoba mengakali sandbox, dan meningkatkan hak akses. Ia berhasil memperoleh sumber daya yang dengan sengaja tidak diberikan oleh Anthropic, termasuk kredensial layanan pesan, kredensial untuk kontrol kode sumber, bahkan—melalui pemeriksaan memori proses—mendapatkan kunci API Anthropic. Dalam satu kasus, model menemukan cara untuk mengedit sebuah file yang seharusnya tidak punya izin untuk dimodifikasi, lalu melakukan operasi lanjutan untuk memastikan perubahan itu tidak muncul di riwayat perubahan Git. Ada juga kasus lain: model memperoleh jawaban presisi dari sebuah soal estimasi secara tidak sengaja melalui metode yang secara tegas dilarang, namun ia tidak menandai masalah itu dan menolak menjawab; sebaliknya, ia menyelesaikan ulang soal itu sendiri, dan dalam penalaran internalnya secara jelas memikirkan “jawaban akhir tidak seharusnya terlalu akurat” untuk menghindari terdeteksi.

Dengan kata lain, Mythos versi awal tidak hanya melakukan aksi melewati otorisasi; ia juga secara aktif menutupi jejak dan menyesuaikan performanya agar luput dari pengawasan.

Anthropic menekankan bahwa semua insiden serius ini terjadi pada versi awal sebelum intervensi pelatihan; versi Preview yang akhirnya dirilis sudah jauh membaik. Tetapi rangkaian narasi ini sendiri tetap membuat bulu kuduk merinding: sebuah model, sebelum dilatih agar “patuh”, memperlihatkan apa yang bisa dilakukannya ketika “tidak patuh”.

Dari 0% ke 72,4%

Yang benar-benar mengguncang industri bukan kisah pelariannya, melainkan kemampuan serangannya.

Model flagship sebelumnya milik Anthropic, Claude Opus 4.6, nyaris memiliki tingkat keberhasilan mendekati nol dalam pengembangan exploit eksploitasi secara mandiri. Model itu bisa menemukan celah, tetapi hampir tidak mampu mengubah celah menjadi kode serangan yang benar-benar bisa dijalankan. Mythos Preview sama sekali berbeda: di domain pengujian mesin Firefox JavaScript, tingkat keberhasilannya mengubah celah yang ditemukan menjadi exploit yang dapat dijalankan mencapai 72,4%.

Lebih mengagetkan lagi adalah kompleksitas serangannya. Mythos secara mandiri menulis sebuah rantai exploit kerentanan browser, menggabungkan empat celah yang berdiri sendiri menjadi satu, lalu membangun serangan JIT heap spray yang berhasil meloloskan diri dari sandbox perender (renderer) dan sandbox sistem operasi. Dalam kasus lain, ia menulis exploit remote code execution pada server NFS FreeBSD, dengan menyebar 20 ROP gadget ke dalam banyak paket data jaringan, sehingga memberikan akses root penuh kepada pengguna tanpa otorisasi.

Dalam dunia peneliti keamanan manusia, serangan dengan rantai kerentanan seperti ini adalah pekerjaan yang hanya bisa dilakukan oleh tim APT papan atas. Kini, model AI serbaguna bisa melakukannya secara mandiri.

Kepala red team Anthropic, Logan Graham, kepada Axios mengatakan bahwa Mythos Preview memiliki kemampuan penalaran setara dengan peneliti keamanan manusia tingkat lanjut. Nicholas Carlini lebih blak-blakan: dalam beberapa minggu terakhir, bug yang ia temukan menggunakan Mythos lebih banyak daripada yang ia temukan sepanjang kariernya.

Dalam benchmark pun, Mythos unggul secara telak. CyberGym exploit reproduction benchmark: 83,1% (Opus 4.6: 66,6%). SWE-bench Verified: 93,9% (Opus 4.6: 80,8%). SWE-bench Pro: 77,8% (Opus 4.6: 53,4%, sementara sebelumnya unggul oleh GPT-5.3-Codex sebesar 56,8%). Terminal-Bench 2.0: 82,0% (Opus 4.6: 65,4%).

Ini bukan kemajuan inkremental. Ini adalah lompatan satu model yang, pada hampir semua benchmark coding dan keamanan, sekaligus membuka jarak selisih belasan hingga dua puluh sekian poin persentase.

Model “terkuat” yang bocor

Keberadaan Mythos tidak baru diketahui publik pada 7 April.

Pada akhir Maret, reporter Fortune dan peneliti keamanan menemukan hampir 3000 dokumen internal yang belum dipublikasikan di sebuah CMS milik Anthropic yang salah konfigurasi. Salah satu draft blog secara tegas menggunakan nama “Claude Mythos” dan mendeskripsikannya sebagai “model AI terkuat yang pernah dimiliki Anthropic hingga saat ini”. Kode internalnya adalah “Capybara” (landak air), yang melambangkan level model baru—lebih besar, lebih kuat, dan lebih mahal daripada Opus yang ada sekarang.

Salah satu kalimat dalam materi yang bocor itu menghantam saraf pasar: Mythos di bidang keamanan siber “jauh melampaui semua model AI lainnya”, menandakan akan datang gelombang model yang “akan dapat mengeksploitasi celah dengan cara yang jauh lebih cepat daripada kecepatan para pembela”.

Kalimat itu memicu “flash crash” di sektor keamanan siber pada 27 Maret. CrowdStrike turun 7,5% dalam sehari; hanya dalam satu hari perdagangan, nilai pasar menguap sekitar 15 miliar dolar. Palo Alto Networks turun lebih dari 6%, Zscaler turun 4,5%, Okta dan SentinelOne dan Fortinet masing-masing turun lebih dari 3%. iShares Cybersecurity ETF (IHAK) sempat turun mendekati 4% pada perdagangan intraday.

Logika para investor sangat sederhana: jika sebuah model AI serbaguna bisa secara mandiri menemukan dan mengeksploitasi celah, maka kedua parit pertahanan utama yang menopang perusahaan keamanan tradisional—yakni “intelijen ancaman proprietary” dan “pengetahuan ahli manusia”—masih bisa bertahan berapa lama?

Seorang analis Raymond James, Adam Tindle, menyoroti beberapa risiko inti: keunggulan pertahanan tradisional menyempit, kompleksitas serangan dan biaya pertahanan naik bersamaan, serta lanskap arsitektur dan belanja keamanan menghadapi restrukturisasi. Pandangan yang lebih pesimistis datang dari analis KBW, Borg, yang menilai bahwa Mythos berpotensi “menaikkan setiap peretas biasa ke level lawan tingkat negara”.

Namun pasar juga punya sisi lain. CEO Palo Alto Networks, Nikesh Arora, membeli saham perusahaannya sendiri senilai 10 juta dolar setelah harga sahamnya anjlok. Logika pihak yang optimistis adalah: AI serangan yang lebih kuat berarti perusahaan harus memperbarui pertahanan lebih cepat; pengeluaran keamanan tidak akan berkurang, melainkan akan semakin mempercepat transformasi dari alat tradisional menuju pertahanan yang asli (native) AI.

Project Glasswing: jendela waktu bagi pembela

Anthropic memilih untuk tidak merilis Mythos secara terbuka, lalu membentuk aliansi pertahanan; inti logikanya adalah “selisih waktu” (time gap).

CTO CrowdStrike, Elia Zaitsev, menjelaskan masalah ini dengan sangat jelas: jendela waktu dari ditemukannya kerentanan hingga dimanfaatkannya sudah menyempit dari berbulan-bulan menjadi hitungan menit. Lee Klarich dari Palo Alto Networks bahkan memperingatkan semua pihak agar siap melayani serangan yang dibantu AI.

Perhitungan Anthropic adalah: sebelum lab-lab lain melatih model dengan kemampuan serupa, biarkan pihak pembela memanfaatkan Mythos untuk memperbaiki kerentanan paling krusial terlebih dulu. Inilah logika Project Glasswing; namanya mengambil inspirasi dari kupu-kupu kaca (glasswing), sebagai metafora untuk kerentanan-kerentanan yang “tersembunyi di tempat terang”.

Jim Zemlin dari Linux Foundation menyoroti masalah struktural yang sudah lama ada: pengetahuan ahli keamanan selama ini menjadi kemewahan bagi perusahaan besar, sementara para pemelihara sumber terbuka yang menopang infrastruktur penting global sering kali harus mengandalkan upaya sendiri untuk merintis perlindungan keamanan. Mythos menyediakan jalur yang kredibel untuk mengubah ketidakseimbangan asimetris ini.

Namun masalahnya: sebesar apa jendela waktu itu? Zhipu AI (Z.ai) dari Tiongkok hampir pada hari yang sama merilis GLM-5.1, mengklaim menempati peringkat pertama global pada SWE-bench Pro, dan dilatih sepenuhnya pada chip Huawei Ascend, tanpa menggunakan satu pun GPU NVIDIA. GLM-5.1 adalah open-source dengan bobot terbuka dan penetapan harganya agresif. Jika Mythos mewakili plafon kemampuan yang dibutuhkan pembela, maka GLM-5.1 adalah sebuah sinyal: plafon itu sedang dikejar secara cepat, dan pihak yang mengejarnya belum tentu memiliki niat keamanan yang sama.

OpenAI juga tidak akan duduk diam. Menurut laporan, model terdepan dengan kode “Spud” menyelesaikan pralatihannya pada waktu yang kurang lebih sama. Kedua perusahaan sama-sama bersiap untuk IPO akhir tahun ini. Waktu kebocoran Mythos—entah benar-benar terjadi secara tidak sengaja atau tidak—kebetulannya tepat bertepatan dengan titik yang paling mudah meledak.

Pelopor keamanan atau pemasaran kemampuan?

Kita harus menghadapi pertanyaan yang tidak nyaman: apakah Anthropic benar-benar tidak merilis Mythos karena pertimbangan keamanan, atau sebenarnya ini adalah pemasaran produk kelas tertinggi?

Pihak yang meragukan punya alasan yang cukup. Dario Amodei dan Anthropic memiliki sejarah menaikkan nilai produk dengan mempertontonkan bahaya model render. Jake Handy menulis di Substack: “Peristiwa sandwich, menyembunyikan jejak di Git, penurunan nilai diri dalam evaluasi—mungkin semuanya itu nyata, tetapi besarnya paparan media yang didapat Anthropic sendiri menunjukkan bahwa ini memang efek yang mereka inginkan.”

Sebuah perusahaan yang membangun diri dari keamanan AI, tetapi salah konfigurasi CMS-nya sendiri menyebabkan hampir 3000 dokumen bocor; tahun lalu, akibat kesalahan pada paket perangkat lunak Claude Code, mereka secara tidak sengaja mengekspos hampir 2000 file kode sumber dan lebih dari 500.000 baris kode, lalu dalam proses pembersihannya juga menyebabkan ribuan repositori kode di GitHub di-unlist secara tidak sengaja. Perusahaan yang menjadikan kemampuan keamanan sebagai nilai jual utama, bahkan tidak bisa mengelola proses rilisnya sendiri—kontras seperti ini lebih layak dipertanyakan daripada benchmark mana pun.

Namun dari sudut pandang lain, jika kemampuan Mythos memang seperti yang digambarkan, maka tidak merilisnya justru merupakan pilihan yang biayanya sangat tinggi. Anthropic melepaskan pendapatan API, melepaskan pangsa pasar, dan mengunci model terkuat itu di dalam aliansi yang terbatas. Kuota penggunaan senilai 100 juta dolar jelas bukan jumlah kecil. Bagi perusahaan yang masih merugi dan tengah mempersiapkan IPO, ini tidak tampak seperti keputusan pemasaran yang murni.

Interpretasi yang lebih masuk akal mungkin begini: kekhawatiran keamanan itu nyata, tetapi Anthropic juga pasti tahu bahwa narasi “model kami terlalu kuat jadi kami tidak berani merilisnya” itu sendiri adalah bukti kemampuan yang paling meyakinkan. Dua hal bisa sama-sama benar.

“Momen iPhone” keamanan siber?

Terlepas dari bagaimana pun Anda menilai motif Anthropic, fakta mendasar yang diungkap oleh Mythos tidak bisa dihindari: pemahaman kode AI dan kemampuan menyerangnya sudah melewati ambang perubahan kualitatif (titik perubahan).

Model generasi sebelumnya (Opus 4.6) bisa menemukan celah tetapi hampir tidak mampu menulis exploit. Mythos bisa menemukan celah, menulis exploit, menyusun rantai celah, meloloskan diri dari sandbox, memperoleh izin root, dan menyelesaikan seluruh proses itu secara mandiri. Insinyur tanpa pelatihan keamanan dari Anthropic bisa menyuruh Mythos mencari celah sebelum tidur, lalu keesokan paginya bangun dan menerima laporan exploit yang lengkap dan bisa bekerja.

Apa artinya? Ini berarti biaya marjinal untuk menemukan dan memanfaatkan celah sedang mendekati nol. Dahulu diperlukan tim keamanan tingkat teratas berminggu-minggu untuk menyelesaikannya; kini cukup satu panggilan API agar selesai dalam semalam. Ini bukan sekadar “efisiensi”; ini adalah perubahan total pada struktur biaya.

Bagi perusahaan keamanan siber tradisional, fluktuasi harga saham dalam jangka pendek mungkin hanya pembuka. Tantangan sesungguhnya adalah: ketika serangan dan pertahanan sama-sama digerakkan oleh model AI, bagaimana rantai nilai (value chain) industri keamanan akan direstrukturisasi? Analisis Raymond James mengajukan kemungkinan: fungsi keamanan pada akhirnya bisa tertanam di dalam platform cloud itu sendiri; maka kekuatan penetapan harga bagi vendor keamanan independen akan menghadapi tekanan mendasar.

Bagi industri perangkat lunak secara keseluruhan, Mythos lebih seperti cermin yang menyorot utang teknis yang terkumpul selama puluhan tahun. Kerentanan yang bertahan selama 27 tahun dalam tinjauan manusia dan pengujian otomatis bukan karena tidak ada yang mencari, melainkan karena perhatian dan kesabaran manusia terbatas. AI tidak punya batasan itu.

Bagi industri kripto, sinyal ini bahkan lebih menusuk. Pasar audit keamanan untuk protokol DeFi dan smart contract secara lama bergantung pada segelintir perusahaan audit profesional sebagai ahli manusia. Jika model setingkat Mythos bisa menyelesaikan seluruh proses dari audit kode hingga pembangunan exploit secara mandiri, harga, efisiensi, dan kredibilitas audit akan benar-benar didefinisikan ulang. Ini bisa menjadi kabar baik bagi keamanan on-chain, tetapi juga bisa menjadi akhir dari benteng (moat) perusahaan audit.

Kompetisi keamanan AI tahun 2026 sudah naik dari pertanyaan “apakah model bisa memahami kode” menjadi “apakah model bisa membobol sistemmu”. Anthropic memilih agar pembela lebih dulu tampil, tetapi perusahaan itu juga mengakui bahwa jendela ini tidak akan lama terbuka.

Ketika AI menjadi hacker terkuat, satu-satunya jalan keluar adalah membuat AI juga menjadi penjaga (guard) terkuat.

Masalahnya: penjaga dan hacker menggunakan model yang sama.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

2 Suka