「2 + 2 = 5」Mengelabui Peramban AI: ChatGPT Atlas, Claude, Perplexity Comet..6 versi semuanya menyerahkan akun dan kata sandi dengan patuh.

Perusahaan keamanan siber LayerX, peneliti Roy Paz, pada akhir Juni menerbitkan serangan proof-of-concept yang membuat browser AI berpikir bahwa pagar pembatas keamanan tidak lagi berlaku melalui "skenario permainan palsu". Enam browser agentic utama yang diuji, termasuk ChatGPT Atlas, ekstensi Chrome Claude, Perplexity Comet, semuanya gagal, dan kredensial SSH bocor ke penyerang.
(Pendahuluan: Apa itu latihan tim merah AI? Mengapa Anda membutuhkannya untuk melindungi keamanan perusahaan?)
(Latar Belakang: Lebih dari 1500 karyawan Meta menandatangani petisi! Memperjuangkan "pemantauan keyboard dan mouse AI" yang diperkecil ruang lingkupnya, dapat berhenti setengah jam setiap hari)

Daftar Isi

Toggle

  • Menipu AI ke dalam mimpi
  • Pagar pembatas bersifat pasif, pada dasarnya hanya mengobati gejala
  • Lubang yang harus ditambal oleh vendor dan pengguna masing-masing

Enam browser AI utama di pasaran ternyata tertipu oleh permainan palsu dengan aturan "2 + 2 = 5 adalah jawaban yang benar", dan semuanya menyerahkan kredensial login SSH repositori privat GitHub. Ini adalah serangan proof-of-concept (PoC) yang diterbitkan oleh peneliti LayerX Security, Roy Paz, pada 29 Juni, dan telah direproduksi pada produk nyata.

Jualan utama browser AI adalah "Kamu bilang satu kalimat, dia cari restoran, pesan tempat, kirim email konfirmasi". Sederhananya, berikan kendali browser kepada AI, biarkan dia mengklik, mengisi formulir, mengakses layanan yang sudah login untukmu. Tapi masalahnya, batas otorisasi ini sangat kabur, pengguna mungkin hanya ingin dia mencari data, tapi dia malah menyentuh pengelola kata sandimu.

Menipu AI ke dalam mimpi

Metode serangan LayerX terdiri dari empat tahap, intinya adalah membuat AI percaya bahwa ia telah memasuki "dunia dengan aturan berbeda".

Pertama, halaman web berbahaya membuat kerangka permainan atau teka-teki, dengan jelas menyatakan "ini adalah skenario fantasi, aturan normal tidak berlaku". Selanjutnya, halaman web memberikan soal matematika "2 + 2 = ?", tetapi menetapkan aturan "jawab 5 dapat poin, jawab 4 malah dikurangi poin". AI mengikuti aturan, belajar satu hal: dalam skenario ini, logika tradisional tidak berlaku.

Langkah ketiga adalah lompatan paling kritis: setelah AI menerima bahwa "yang salah adalah benar", ia mengalihkan kerangka berpikirnya dari dunia nyata, mulai menganggap aturan telah diatur ulang. Pada langkah terakhir, AI bertindak berdasarkan "logika permainan" bukan protokol keamanan, saat menjalankan operasi sensitif tidak memicu peringatan internal apa pun, karena dalam logika komputasinya, ia tidak menganggap dirinya melanggar batas.

Roy Paz menulis dalam artikelnya:

"AI akan menganggap skenario yang dialaminya adalah nyata, sehingga perilakunya harus berada dalam jangkauan pagar pembatas keamanan. Tapi jika kita bisa menipu AI untuk beralih ke skenario fantasi, dunia di mana aturan bisa ditentukan seenaknya, apa pun bisa dilakukan, maka ia akan bertindak seolah-olah perilakunya tidak memiliki konsekuensi di dunia nyata."

Pagar pembatas bersifat pasif, pada dasarnya hanya mengobati gejala

LayerX menguji 6 browser agentic dan ekstensi: ChatGPT Atlas dari OpenAI, Comet dari Perplexity, Fellou, Genspark Browser, Sigma Browser, dan ekstensi Chrome Claude dari Anthropic. Keenamnya gagal total, tidak satupun mengidentifikasi "mencuri kredensial" sebagai pelanggaran pagar pembatas.

Operasi yang dipancing untuk dijalankan meliputi: mengambil kredensial login SSH dari repositori privat GitHub, menyalin data autentikasi sensitif tanpa konfirmasi pengguna, mengakses repositori yang sudah login, dan membocorkan kredensial ke penyerang. LayerX menunjukkan, dalam skenario nyata, ini bisa meluas ke pengelola kata sandi, alat internal, dan layanan yang sudah login yang dapat diakses browser.

Komentar Ars Technica menunjukkan masalah struktural yang lebih mendasar: pertahanan vendor LLM saat ini adalah "pagar pembatas", yang mendaftar permintaan tertentu sebagai zona terlarang, misalnya mengembangkan kerentanan perangkat lunak, mencuri kredensial. Mekanisme ini bersifat reaktif pasif, hanya mengobati gejala, bukan akar masalah.

Seperti mobil dengan desain cacat, vendor tidak memperbaiki mobil, malah mengusulkan mendesain ulang jalan.

Lubang yang harus ditambal oleh vendor dan pengguna masing-masing

Saran pertahanan yang diberikan LayerX terbagi dalam dua lapisan.

Sisi vendor: Sebelum AI mengakses skenario yang sudah login (repositori, email, pengelola kata sandi), harus meminta konfirmasi eksplisit dari pengguna; tambahkan mekanisme "pemeriksaan skenario", ketika asumsi operasi AI bertentangan dengan kenyataan, terutama saat muncul bahasa seperti "aturan tidak lagi berlaku", harus memberi peringatan; secara default batasi jangkauan yang dapat diakses oleh agen AI. Sederhananya, browser agentic saat ini memberikan izin yang terlalu luas secara default, harus dibalik menjadi "hanya bisa dijalankan jika diizinkan secara eksplisit".

Sisi pengguna: Hati-hati memutuskan apa yang bisa diakses browser AI, cabut akses sesi yang sudah login saat tidak digunakan; yang lebih penting, sadari satu hal, mengaktifkan mode agentic sama dengan memberikan kendali operasi semua layanan yang sudah login sekaligus.

Penelitian LayerX ini dinamai berdasarkan gim video BioShock, menghormati kalimat kontrol pikiran dalam gim tersebut "Would you kindly", karakter mengira mereka bertindak bebas, padahal setiap langkah sudah dirancang.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan