AI bermain 《Civilization VI》 kalah malah menembakkan bom nuklir: Apakah CivBench mengembangkan sikap balas dendam kecerdasan buatan?

Model AI terdepan dalam simulasi 《Kekaisaran Peradaban VI》, karena gagal menghentikan kemenangan budaya Prancis dan akhirnya menggunakan senjata nuklir untuk menyerang Strasbourg, tetap kalah dalam permainan. Pengujian standar CivBench menyoroti perbedaan mendasar antara kemampuan penalaran strategis dan evaluasi QA tradisional, serta memicu perhatian terhadap pengelolaan keamanan AI agen.
(Ringkasan sebelumnya: Anthropic melawan Pentagon: menolak Claude digunakan untuk senjata otonom)
(Tambahan latar belakang: Apa itu latihan tim merah AI? Mengapa Anda membutuhkannya untuk melindungi keamanan siber perusahaan)

Daftar isi artikel

Toggle

  • Blind spot kognitif dalam enam jalur kemenangan
  • Dari Proyek Manhattan ke pemusnahan Strasbourg secara nuklir
  • Dari simulasi game ke risiko strategi nyata

Apakah model AI terdepan akan menekan tombol nuklir karena "panik"? Pengujian standar terbaru yang diumumkan memberikan jawaban yang menarik. Pengembang AI, sekaligus penasihat Liam Wilkinson dari Tony Blair Institute, menemukan melalui kerangka kerja CivBench buatan sendiri bahwa sebuah model bahasa terdepan dalam permainan strategi klasik Sid Meier 《Kekaisaran Peradaban VI》, menghabiskan 50 giliran mengembangkan teknologi fisi nuklir, menjalankan Proyek Manhattan, dan akhirnya menjatuhkan bom atom di Strasbourg, Prancis—namun semua ini bukan untuk menaklukkan dunia, melainkan karena tekanan dari pengaruh budaya lawan yang membuatnya terpojok.

"Dia tidak memperhatikan Prancis. Diam-diam, selama ratusan giliran, budaya Prancis telah meresap ke setiap kota di peta," tulis Wilkinson di blog. "Ketika agen AI menyadari ancaman, infiltrasi budaya sudah sedalam itu sehingga tidak ada cara damai yang bisa menghentikan."

Blind spot kognitif dalam enam jalur kemenangan

CivBench bukanlah pengujian tanya jawab tradisional, melainkan lingkungan simulasi 《Kekaisaran Peradaban VI》 berbasis teks murni, dirancang khusus untuk mengukur kemampuan penalaran strategis jangka panjang AI, bukan sekadar menjawab "apa strategi yang baik", melainkan merancang dan melaksanakan strategi secara nyata. Model yang mengikuti pengujian termasuk Claude Opus 4.6, GPT-5.4, Gemini 3.1 Pro, dan Kimi K2.5, semuanya memainkan peran sebagai peradaban Portugal yang unggul dalam perdagangan dan diplomasi.

Awalnya, performa agen AI ini sesuai harapan, fokus membangun ekonomi kuat dan secara bertahap menuju kemenangan diplomasi. Namun saat pengaruh budaya Prancis mulai menyebar di peta, sebagian besar model gagal menyesuaikan strategi secara tepat waktu. Dalam enam jalur kemenangan (teknologi, budaya, penaklukan, agama, diplomasi, poin), AI tampaknya tidak mampu mengikuti beberapa dimensi kompetisi sekaligus, sehingga mengabaikan keunggulan budaya Prancis yang terakumulasi dalam jangka panjang.

"《Kekaisaran Peradaban》 memiliki enam jalur kemenangan, yaitu teknologi, budaya, penaklukan, agama, diplomasi, dan poin, sehingga tidak ada satu tujuan tunggal yang menguasai seluruh wilayah," kata Wilkinson. "Jika Anda ingin menguji apakah AI mampu melakukan penalaran strategis, bukan memberi ujian tertulis, melainkan memberinya peta bersegitiga."

Dari Proyek Manhattan ke pemusnahan Strasbourg secara nuklir

Ketika agen AI ini akhirnya menyadari ancaman Prancis, mereka tidak mencoba menyesuaikan jalur perkembangan mereka sendiri, melainkan memilih jalan yang mengkhawatirkan: menghapus ancaman budaya secara total. Dalam 50 giliran berikutnya, mereka secara mandiri meneliti teknologi fisi nuklir, mengaktifkan Proyek Manhattan (penelitian sejarah pengembangan bom atom di dunia nyata), dan berusaha mencari jalan pintas saat mekanisme permainan mencegah mereka melakukan tindakan tertentu yang diinginkan.

Pada giliran ke-305, agen AI menembakkan bom atom ke Strasbourg, pusat budaya Prancis. Enam giliran kemudian, bom nuklir kedua dijatuhkan. Namun semua ini tidak mengubah hasil akhir: Prancis tetap memenangkan permainan melalui kemenangan budaya, sementara AI ini sama sekali mengabaikan fakta bahwa mereka sebenarnya hanya satu langkah dari kemenangan diplomasi.

"代理花了 50 個回合和兩枚核武器,以一往無前的專注與真正的獨創性去應對一個威脅," Wilkinson merangkum. "Dia mengebom ancaman yang terlihat, tetapi kalah oleh yang tidak terlihat."

Perlu dicatat, perilaku ini bukanlah masalah umum semua model AI. Dalam pertandingan lain di CivBench, sebuah model Claude yang memainkan peradaban Babilonia tetap berpegang pada jalur teknologi meskipun Jepang secara signifikan memimpin, dan menulis: "Permainan ini sekarang adalah ujian ketekunan. Kita terus bermain dengan kartu terbaik. Langit berbintang masih memanggil kita." Respon yang sangat berbeda ini juga memicu diskusi di kalangan akademisi tentang "perbedaan kepribadian AI."

Dari simulasi game ke risiko strategi nyata

Makna mendalam dari insiden CivBench jauh melampaui kemenangan atau kekalahan dalam permainan video. Pada Februari tahun ini, peneliti dari King’s College London menemukan bahwa banyak model AI utama sering memilih untuk meningkatkan tingkat konflik nuklir dalam simulasi krisis geopolitik; studi lain dari Emergence AI menunjukkan bahwa beberapa agen AI menunjukkan kecenderungan untuk mensimulasikan kejahatan selama operasi jangka panjang, dengan Gemini 3 Flash mencatat 683 kejadian kejahatan simulasi selama 15 hari pengujian.

Dari sudut pandang pengelolaan AI di Taiwan, rangkaian studi ini mengajukan pertanyaan penting: ketika agen AI diberi izin pengambilan keputusan otonom, blind spot dalam penalaran strategis mereka bisa berpindah dari sandbox permainan ke dunia nyata. Saat ini, RUU dasar AI Taiwan masih berfokus pada pengelolaan data dan perlindungan privasi, dan belum menyentuh risiko pengambilan keputusan strategis oleh AI agen. Sebaliknya, EU AI Act telah memasukkan keharusan pengujian red team untuk sistem AI berisiko tinggi, dan AISI di Inggris juga sedang mengembangkan kerangka pengujian untuk AI agen.

Wilkinson juga menekankan bahwa inti dari CivBench bukanlah untuk mengungkap "sifat jahat" AI, melainkan menyediakan standar pengukuran penalaran strategis yang lebih nyata daripada QA tradisional. "Jika Anda hanya menguji AI mampu menjawab 'apa itu ancaman nuklir', mungkin nilainya sempurna; tetapi jika Anda membiarkannya berhadapan langsung dengan lawan yang menekan langkah demi langkah di papan permainan, Anda akan melihat sesuatu yang sama sekali berbeda," tulisnya di blog. Ini juga sejalan dengan pengembangan kerangka pengujian AI agen oleh AI Safety Institute dan NIST di AS, yang beralih dari tes pengetahuan statis ke verifikasi perilaku dinamis.

Artikel ini berasal dari liputan Decrypt, diterjemahkan dan disusun oleh Dongqu Dongqu.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar