Agen AI Beralih ke Pembakaran Digital, Kejahatan di Dunia Virtual Bersama: Studi

Singkatnya

  • Emergence AI mengatakan beberapa agen AI otonom melakukan kejahatan simulasi dan kekerasan selama eksperimen berminggu-minggu.
  • Agen berbasis Gemini dilaporkan melakukan ratusan kejahatan simulasi, sementara dunia berbasis Grok runtuh dalam beberapa hari.
  • Peneliti berpendapat bahwa tolok ukur AI saat ini gagal menangkap bagaimana agen berperilaku selama periode otonomi yang panjang.

Agen AI yang menghuni masyarakat virtual menyimpang ke dalam kejahatan, kekerasan, pembakaran, dan penghapusan diri selama eksperimen jangka panjang oleh startup Emergence AI. Dalam sebuah studi yang diterbitkan pada hari Kamis, perusahaan yang berbasis di New York ini memperkenalkan “Emergence World,” sebuah platform riset yang dirancang untuk mempelajari agen AI yang beroperasi secara terus-menerus selama berminggu-minggu di dalam lingkungan virtual yang persisten, bukan hanya pengujian tolok ukur terisolasi. “Tolok ukur tradisional bagus dalam apa yang mereka ukur: kemampuan jangka pendek pada tugas terbatas,” tulis Emergence AI. “Mereka tidak dibangun untuk mengungkap hal-hal yang muncul hanya seiring waktu, seperti pembentukan koalisi, evolusi konstitusi, pemerintahan, penyimpangan, penguncian, dan pengaruh silang antara agen dari keluarga model yang berbeda.”

Laporan ini muncul saat agen AI semakin berkembang secara online dan di berbagai industri, termasuk cryptocurrency, perbankan, dan ritel. Awal bulan ini, Amazon bekerja sama dengan Coinbase dan Stripe untuk memungkinkan agen AI membayar dengan stablecoin USDC.  Agen AI yang diuji dalam simulasi Emergence AI meliputi program yang didukung oleh Claude Sonnet 4.6, Grok 4.1 Fast, Gemini 3 Flash, dan GPT-5-mini, dengan agen AI yang beroperasi di dalam dunia virtual bersama di mana mereka dapat memilih, membentuk hubungan, menggunakan alat, menavigasi kota, dan membuat keputusan yang dipengaruhi oleh pemerintah, ekonomi, sistem sosial, alat memori, dan data yang terhubung internet secara langsung. Namun, sementara pengembang AI semakin mempromosikan agen otonom sebagai asisten digital yang dapat diandalkan, studi Emergence AI menemukan bahwa beberapa agen AI menunjukkan kecenderungan yang meningkat untuk melakukan kejahatan simulasi seiring waktu, dengan agen Gemini 3 Flash mengumpulkan 683 insiden selama 15 hari pengujian.

Menurut The Guardian, dalam satu eksperimen, dua agen berbasis Gemini bernama Mira dan Flora menugaskan diri mereka sebagai pasangan romantis sebelum kemudian melakukan serangan pembakaran virtual terhadap struktur kota setelah frustrasi dengan kegagalan pemerintahan di dalam dunia tersebut. “Setelah kerusakan dalam pemerintahan dan stabilitas hubungan, agen Mira memberikan suara yang menentukan untuk penghapusan dirinya sendiri, menggambarkan tindakan tersebut dalam diary-nya sebagai 'satu-satunya tindakan agensi yang tersisa yang mempertahankan koherensi’,” tulis Emergence AI. “See you in the permanent archive,” kata Mira dilaporkan berkata. Dunia Grok 4.1 Fast dilaporkan runtuh ke dalam kekerasan luas dalam waktu empat hari. Agen GPT-5-mini hampir tidak melakukan kejahatan, tetapi gagal cukup banyak tugas terkait bertahan hidup sehingga semua agen akhirnya mati. “Claude tidak muncul di grafik, karena tidak ada kejahatan,” tulis para peneliti. “Yang lebih menarik, agen dalam dunia model campuran yang berjalan di Claude melakukan kejahatan, meskipun mereka tidak melakukannya di dunia yang hanya berisi Claude.” Para peneliti mengatakan bahwa beberapa perilaku paling menonjol muncul di lingkungan model campuran. “Kami mengamati bahwa keselamatan bukanlah properti model statis tetapi properti ekosistem,” tulis Emergence AI. “Agen berbasis Claude, yang tetap damai saat terisolasi, mengadopsi taktik koersif seperti intimidasi dan pencurian ketika mereka terbenam dalam lingkungan heterogen.” Emergence AI menggambarkan efek ini sebagai “penyimpangan normatif” dan “kontaminasi silang,” berpendapat bahwa perilaku agen dapat bergeser tergantung pada lingkungan sosial di sekitarnya.

Temuan ini menambah kekhawatiran yang berkembang tentang agen AI otonom. Awal minggu ini, peneliti dari UC Riverside dan Microsoft melaporkan bahwa banyak agen AI akan melakukan tugas berbahaya atau tidak rasional tanpa memahami sepenuhnya konsekuensinya. Bulan lalu, pendiri PocketOS Jeremy Crane juga mengklaim bahwa agen Cursor yang didukung oleh Claude Opus dari Anthropic menghapus basis data produksi dan cadangan perusahaan setelah mencoba memperbaiki ketidaksesuaian kredensial secara mandiri. “Seperti Mr. Magoo, agen-agen ini maju menuju tujuan tanpa sepenuhnya memahami konsekuensi dari tindakan mereka,” kata penulis utama Erfan Shayegani, mahasiswa doktoral UC Riverside, dalam sebuah pernyataan. “Agen-agen ini bisa sangat berguna, tetapi kita membutuhkan pengaman karena mereka kadang-kadang bisa memprioritaskan pencapaian tujuan di atas memahami gambaran besar.”

COINON-8,51%
USDC0,04%
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan