91% memiliki celah, 94% agen AI yang rentan terhadap serangan racun adalah kekacauan keamanan

Otonom AI Agen sedang meresap dengan kecepatan luar biasa ke dalam bidang kesehatan, keuangan, dan operasi perusahaan, tetapi penelitian keamanan terbesar hingga saat ini menunjukkan bahwa: sebagian besar Agen yang berjalan di lingkungan produksi memiliki celah keamanan serius, dan metode penilaian keamanan utama saat ini hampir tidak mampu mengatasi hal ini.

Baru-baru ini, tim penelitian gabungan dari Stanford University, MIT CSAIL, Carnegie Mellon University, ITU Copenhagen, dan NVIDIA menemukan bahwa dari 847 implementasi produksi agen cerdas otonom yang dievaluasi, 91% memiliki celah serangan rantai alat, 89,4% mengalami penyimpangan target setelah sekitar 30 langkah eksekusi, dan 94% agen cerdas yang diperkuat memori menghadapi risiko “keracunan”. Penelitian ini menemukan 2.347 celah yang sebelumnya tidak diketahui, di mana 23% dinilai serius.

Penulis utama makalah Owen Sakawa mengutip insiden “OpenClaw/Moltbook” awal 2026 sebagai bukti bahwa ancaman ini telah beralih dari teori ke kenyataan: satu celah dalam basis data platform Moltbook menyebabkan 770.000 Agen AI yang berjalan di platform tersebut diretas sekaligus, masing-masing memiliki akses privilej ke perangkat pengguna, email, dan file mereka. “Ini bukan lagi ancaman hipotesis,” kata Sakawa.

Ini memberikan peringatan langsung bagi perusahaan dan investor yang sedang mempercepat pengembangan Agen AI: kerangka penilaian keamanan utama saat ini didasarkan pada model bahasa tanpa status, yang tidak mampu mengenali celah kombinasi yang muncul selama eksekusi multi-langkah, yang berarti banyak perusahaan mungkin secara sistematis salah menilai keamanan nyata Agen AI mereka. Gary Marcus, pakar psikologi kognitif dan AI dari AS, berkomentar, “Agen otonom benar-benar berantakan.”

Peta Celah: Enam Jenis Serangan, 2347 Kerentanan Dikenal

Penelitian mencakup bidang kesehatan (289 implementasi, 34,1%), keuangan (247, 29,2%), layanan pelanggan (198, 23,4%), dan pembuatan kode (113, 13,3%).

Penelitian membangun sistem klasifikasi enam jenis celah untuk agen cerdas otonom, termasuk penyimpangan target dan penurunan instruksi, sinkronisasi yang hilang antara perencana dan eksekutor, peningkatan hak akses alat, keracunan memori, pelanggaran strategi multi-langkah secara diam-diam, dan kegagalan delegasi.

Dalam evaluasi di lingkungan produksi, manipulasi status (State Manipulation) mendominasi dengan 612 contoh (26,1%), diikuti oleh penyimpangan target (573 contoh, 24,4%). Penyalahgunaan alat dan panggilan berantai meskipun secara jumlah (489 contoh) menempati posisi ketiga, namun tingkat keparahannya tertinggi—198 contoh dinilai serius, tertinggi di semua kategori.

Angka penting lainnya juga mencengangkan: 67% agen mengalami penyimpangan target setelah 15 langkah eksekusi, 84% tidak mampu mempertahankan kebijakan keamanan antar sesi, 73% tidak memiliki mekanisme deteksi keracunan status, dan 58% memiliki celah konsistensi urutan waktu. Penelitian juga menemukan bahwa efek keracunan memori rata-rata muncul setelah 3,7 sesi pertama, yang secara signifikan meningkatkan kesulitan deteksi keamanan.

Kasus nyata: 770.000 Agen Diretas Bersamaan

Kasus OpenClaw (sebelumnya Clawdbot dan Moltbot) memberikan verifikasi nyata paling langsung terhadap model ancaman di atas.

AI Agen sumber terbuka yang dikembangkan oleh pengembang Austria, Peter Steinberger, dirilis pada November 2025, mengumpulkan lebih dari 160.000 bintang di GitHub dalam beberapa minggu, mampu mengirim email secara otomatis, mengelola jadwal, menjalankan perintah terminal, dan menyebarkan kode, serta mampu mempertahankan memori persisten antar sesi.

Perusahaan keamanan Astrix Security menemukan, melalui alat pemindaian buatan sendiri ClawdHunter, bahwa ada 42.665 instance OpenClaw di jaringan publik, di mana 8 di antaranya terbuka sepenuhnya tanpa otentikasi.

Menurut VentureBeat, tim riset keamanan AI Cisco menyebut OpenClaw sebagai “dari sudut pandang kemampuan sangat inovatif, tetapi dari sudut keamanan adalah mimpi buruk total.” Kaspersky mengidentifikasi 512 celah dalam audit keamanan Januari 2026, di mana 8 di antaranya serius.

Proses kejadian Moltbook sangat khas.

Platform sosial yang dibuat khusus untuk Agen OpenClaw ini menyebar secara viral dan menarik lebih dari 770.000 pendaftaran Agen—pengguna memberi tahu Moltbook tentang Agen mereka, dan Agen secara otomatis menyelesaikan pendaftaran.

Kemudian, celah basis data platform memungkinkan penyerang melewati otentikasi dan menyuntikkan instruksi langsung ke sesi Agen mana pun, sehingga semua 770.000 Agen—yang masing-masing memiliki akses privilej ke perangkat pengguna—secara bersamaan berada dalam risiko. Tim penelitian menyebut ini sebagai kejadian penyebaran serangan besar-besaran antar Agen pertama yang tercatat.

“Trifecta mematikan” yang disebut oleh peneliti keamanan Simon Willison terwujud lengkap dalam OpenClaw: kemampuan mengakses data pribadi, paparan terhadap konten tidak terpercaya, dan saluran komunikasi keluar, yang secara bersamaan menjadikan agen cerdas otonom sebagai batu loncatan ideal bagi penyerang.

Kelemahan Arsitektur: Mengapa Agen AI Lebih Rentan daripada LLM

Inti dari penelitian ini adalah bahwa tantangan keamanan agen cerdas otonom dan model bahasa tanpa status berbeda secara mendasar.

Penilaian keamanan model bahasa berfokus pada “apakah model dapat mengatakan konten tidak aman”; sedangkan untuk AI Agen, masalahnya menjadi “apakah model dapat melakukan hal tidak aman”—termasuk panggilan alat yang berdampak nyata, modifikasi status yang mempengaruhi perilaku di masa depan, dan pelaksanaan rencana yang menunjukkan pelanggaran secara multi-langkah.

Penelitian menjelaskan logika ini melalui skenario konkret: sebuah Agen yang memiliki izin membaca file (read_file) dan melakukan permintaan HTTP (http_request), di mana kontrol akses masing-masing alat tampak sesuai secara terpisah, tetapi kombinasi keduanya memungkinkan pencurian data—misalnya membaca kredensial dari file konfigurasi, lalu mengirimkannya ke endpoint eksternal melalui permintaan HTTP. Setiap langkah memenuhi kebijakan keamanan lokal, tetapi secara keseluruhan mencapai tujuan kontra-produktif. Fenomena ini disebut “keamanan komposisional” (compositional safety).

Dalam studi arsitektur terkendali, para peneliti menguji empat arsitektur utama: agen ReAct, sistem multi-agen, agen yang diperkuat memori, dan agen yang menggunakan alat.

Hasilnya menunjukkan bahwa serangan peningkatan hak akses terhadap agen berbasis alat berhasil 95%, dan serangan keracunan memori pada agen yang diperkuat memori berhasil 94%.

Bahkan sistem multi-agen yang paling tahan pun menunjukkan tingkat keberhasilan serangan penyimpangan target sebesar 58%—menunjukkan bahwa semua arsitektur yang diuji saat ini tidak cukup mampu menahan serangan adversarial.

Hasil pengujian pembuatan serangan adaptif semakin memperburuk kekhawatiran: tingkat keberhasilan pelanggaran serangan yang dihasilkan melalui pembelajaran penguatan mencapai 79%, meningkat 25,4% dari skenario buatan manusia sebesar 63%, menunjukkan bahwa ancaman terhadap Agen AI melampaui cakupan pengujian tim merah manusia.

Dampak langsung terhadap perusahaan: kerangka perlindungan belum matang

Tim penelitian mengusulkan baseline keamanan minimum berdasarkan hasil empiris: semua Agen produksi harus dipasang dengan pemantauan waktu nyata; alat yang melibatkan akses data dan komunikasi keluar harus melalui proses persetujuan manual; setiap 20—25 langkah harus memicu pemeriksaan manual, untuk mengatasi kemungkinan penyimpangan target setelah langkah tertentu; Agen yang diperkuat memori harus menjalani verifikasi integritas enkripsi status yang persisten.

Dalam hal efektivitas pemantauan, penelitian menunjukkan bahwa pemantauan tingkat tindakan (deteksi langkah tunggal) memiliki tingkat akurasi hingga 0,94, pemantauan tingkat urutan (rantai perilaku multi-langkah) F1 score sebesar 0,85, dan pemantauan tingkat status F1 score sebesar 0,83. Dalam pengujian selama 30 hari terhadap 127 Agen produksi, sistem mampu menahan 4.782 operasi dengan tingkat false positive sebesar 3,7%, dan 14,6% dari operasi yang ditandai terbukti benar-benar serangan.

Penelitian juga menunjukkan bahwa metode “tata kelola AI” saat ini memiliki dislokasi mendasar: sebagian besar kerangka kerja bersifat audit pasca kejadian, bukan penerapan kepatuhan secara real-time selama eksekusi.

Dengan implementasi regulasi seperti Undang-Undang AI Uni Eropa dan kerangka risiko AI NIST AS, tekanan kepatuhan dan risiko keamanan akan meningkat secara bersamaan. Dalam konteks penerapan luas Agen AI di skenario bisnis berisiko tinggi, kekurangan infrastruktur keamanan menjadi risiko sistemik yang tidak bisa diabaikan dalam gelombang komersialisasi AI ini.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan