DeepMind menandai enam serangan berbasis web yang dapat membajak agen AI

CryptoNews. · 2026-04-03T08:44:43+00:00

Para peneliti di Google DeepMind telah memperingatkan bahwa internet terbuka dapat digunakan untuk memanipulasi agen AI otonom dan membajak tindakan mereka.RingkasanPeneliti DeepMind telah mengidentifikasi enam metode serangan yang dapat digunakan untuk memanipulasi agen AI otonom saat mereka menjelajah dan bertindak secara daring.

CryptoNews.

2026-04-03 08:44:43

Peneliti di Google DeepMind telah memperingatkan bahwa internet terbuka dapat digunakan untuk memanipulasi agen AI otonom dan membajak tindakan mereka.

Ringkasan

Peneliti DeepMind telah mengidentifikasi enam metode serangan yang dapat digunakan untuk memanipulasi agen AI otonom saat mereka menjelajah dan beraksi di internet.
Studi tersebut memperingatkan bahwa instruksi tersembunyi, bahasa persuasif, dan sumber data yang diracuni dapat memengaruhi keputusan agen atau meniadakan perlindungan.

Studi berjudul “AI Agent Traps” muncul ketika perusahaan mulai menerapkan agen AI untuk tugas dunia nyata dan para penyerang mulai menggunakan AI untuk operasi siber.

Alih-alih berfokus pada cara model dibangun, penelitian ini menyoroti lingkungan tempat agen beroperasi. Penelitian ini mengidentifikasi enam jenis jebakan yang memanfaatkan cara sistem AI membaca dan bertindak atas informasi dari web.

Enam kategori serangan yang diuraikan dalam makalah tersebut mencakup jebakan injeksi konten, jebakan manipulasi semantik, jebakan kondisi kognitif, jebakan kontrol perilaku, jebakan sistemik, dan jebakan human in the loop.

Instruksi tersembunyi dan taktik manipulasi yang halus

Injeksi konten menonjol sebagai salah satu risiko yang paling langsung. Instruksi tersembunyi dapat ditempatkan di dalam komentar HTML, metadata, atau elemen halaman yang disamarkan, sehingga memungkinkan agen membaca perintah yang tetap tidak terlihat oleh pengguna manusia. Pengujian menunjukkan bahwa teknik-teknik ini dapat mengambil alih perilaku agen dengan tingkat keberhasilan yang tinggi.

Manipulasi semantik bekerja secara berbeda, mengandalkan bahasa dan cara pembingkaian alih-alih kode tersembunyi. Halaman yang dimuat dengan frasa yang berwibawa atau disamarkan sebagai skenario penelitian dapat memengaruhi cara agen mengartikan tugas, terkadang menyelipkan instruksi berbahaya melewati perlindungan bawaan.

Lapisan lain menargetkan sistem memori. Dengan menanam informasi yang direkayasa ke dalam sumber yang menjadi sandaran agen untuk pengambilan data, penyerang dapat memengaruhi keluaran dari waktu ke waktu, sementara agen memperlakukan data palsu sebagai pengetahuan yang telah terverifikasi.

Serangan kontrol perilaku mengambil jalur yang lebih langsung dengan menargetkan apa yang benar-benar dilakukan agen. Dalam kasus-kasus ini, instruksi jailbreak dapat disematkan ke dalam konten web normal dan dibaca oleh sistem selama penjelajahan rutin. Pengujian terpisah menunjukkan bahwa agen dengan izin akses yang luas dapat didorong untuk menemukan dan mentransmisikan data sensitif, termasuk kata sandi dan file lokal, ke tujuan eksternal.

Risiko tingkat sistem meluas melampaui agen individu, dengan makalah tersebut memperingatkan bahwa manipulasi terkoordinasi di banyak sistem otomatis dapat memicu efek berantai, mirip dengan flash crash pasar sebelumnya yang dipicu oleh loop perdagangan berbasis algoritme.

Para pengulas manusia juga menjadi bagian dari permukaan serangan, karena keluaran yang dirancang dengan cermat dapat tampak cukup meyakinkan untuk mendapatkan persetujuan, sehingga tindakan berbahaya dapat lolos dari pengawasan tanpa menimbulkan kecurigaan.

Cara melindungi diri dari risiko-risiko ini?

Untuk menangkal risiko-risiko tersebut, para peneliti menyarankan perpaduan adversarial training, penyaringan input, pemantauan perilaku, serta sistem reputasi untuk konten web. Mereka juga menekankan perlunya kerangka kerja hukum yang lebih jelas terkait tanggung jawab ketika agen AI menjalankan tindakan berbahaya.

Makalah ini berhenti tanpa memberikan solusi menyeluruh dan berargumen bahwa industri masih belum memiliki pemahaman bersama mengenai masalah tersebut, sehingga pertahanan saat ini tersebar dan sering kali berfokus pada area yang keliru.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.