Dasar
Spot
Perdagangkan kripto dengan bebas
Perdagangan Margin
Perbesar keuntungan Anda dengan leverage
Konversi & Investasi Otomatis
0 Fees
Perdagangkan dalam ukuran berapa pun tanpa biaya dan tanpa slippage
ETF
Dapatkan eksposur ke posisi leverage dengan mudah
Perdagangan Pre-Market
Perdagangkan token baru sebelum listing
Futures
Akses ribuan kontrak perpetual
CFD
Emas
Satu platform aset tradisional global
Opsi
Hot
Perdagangkan Opsi Vanilla ala Eropa
Akun Terpadu
Memaksimalkan efisiensi modal Anda
Perdagangan Demo
Pengantar tentang Perdagangan Futures
Bersiap untuk perdagangan futures Anda
Acara Futures
Gabung acara & dapatkan hadiah
Perdagangan Demo
Gunakan dana virtual untuk merasakan perdagangan bebas risiko
CFD
Derivatif CFD Saham AS
Saham AS
Akses saham AS dan ETF yang nyata
Saham HK
Perdagangkan saham berkualitas yang terdaftar di Hong Kong
Saham Korea
SK Hynix
Perdagangkan Saham Korea Nyata dan Berinvestasi pada Aset Populer
Saham Futures
Leverage tinggi, perdagangan 24/7
Tokenized Stocks
Didukung oleh aset saham nyata
IPO Access
Buka akses penuh ke IPO saham global
GUSD
Mint GUSD untuk Imbal Hasil Treasury RWA
Aktivitas Saham
Perdagangkan Saham Populer dan Dapatkan Airdrop yang Melimpah
Peluncuran
CandyDrop
Koleksi permen untuk mendapatkan airdrop
Launchpool
Staking cepat, dapatkan token baru yang potensial
HODLer Airdrop
Pegang GT dan dapatkan airdrop besar secara gratis
IPO Access
Buka akses penuh ke IPO saham global
Poin Alpha
Perdagangkan aset on-chain, raih airdrop
Poin Futures
Dapatkan poin futures dan klaim hadiah airdrop
Investasi
Simple Earn
Dapatkan bunga dengan token yang menganggur
Investasi Otomatis
Investasi otomatis secara teratur
Investasi Ganda
Keuntungan dari volatilitas pasar
Soft Staking
Dapatkan hadiah dengan staking fleksibel
Pinjaman Kripto
0 Fees
Menjaminkan satu kripto untuk meminjam kripto lainnya
Pusat Peminjaman
Hub Peminjaman Terpadu
Promosi
AI
Gate AI
Partner AI serbaguna untuk Anda
Gate AI Bot
Gunakan Gate AI langsung di aplikasi sosial Anda
GateClaw
Gate Blue Lobster, langsung pakai
Gate for AI Agent
Infrastruktur AI, Gate MCP, Skills, dan CLI
Gate Skills Hub
10RB+ Skills
Dari kantor hingga trading, satu platform keterampilan membuat AI jadi lebih mudah digunakan
AI bermain 《Civilization VI》 kalah malah menembakkan bom nuklir: Apakah CivBench mengembangkan sikap balas dendam kecerdasan buatan?
Model AI terdepan dalam simulasi 《Kekaisaran Peradaban VI》, karena gagal menghentikan kemenangan budaya Prancis dan akhirnya menggunakan senjata nuklir untuk menyerang Strasbourg, tetap kalah dalam permainan. Pengujian standar CivBench menyoroti perbedaan mendasar antara kemampuan penalaran strategis dan evaluasi QA tradisional, serta memicu perhatian terhadap pengelolaan keamanan AI agen.
(Ringkasan sebelumnya: Anthropic melawan Pentagon: menolak Claude digunakan untuk senjata otonom)
(Tambahan latar belakang: Apa itu latihan tim merah AI? Mengapa Anda membutuhkannya untuk melindungi keamanan siber perusahaan)
Daftar isi artikel
Toggle
Apakah model AI terdepan akan menekan tombol nuklir karena "panik"? Pengujian standar terbaru yang diumumkan memberikan jawaban yang menarik. Pengembang AI, sekaligus penasihat Liam Wilkinson dari Tony Blair Institute, menemukan melalui kerangka kerja CivBench buatan sendiri bahwa sebuah model bahasa terdepan dalam permainan strategi klasik Sid Meier 《Kekaisaran Peradaban VI》, menghabiskan 50 giliran mengembangkan teknologi fisi nuklir, menjalankan Proyek Manhattan, dan akhirnya menjatuhkan bom atom di Strasbourg, Prancis—namun semua ini bukan untuk menaklukkan dunia, melainkan karena tekanan dari pengaruh budaya lawan yang membuatnya terpojok.
"Dia tidak memperhatikan Prancis. Diam-diam, selama ratusan giliran, budaya Prancis telah meresap ke setiap kota di peta," tulis Wilkinson di blog. "Ketika agen AI menyadari ancaman, infiltrasi budaya sudah sedalam itu sehingga tidak ada cara damai yang bisa menghentikan."
Blind spot kognitif dalam enam jalur kemenangan
CivBench bukanlah pengujian tanya jawab tradisional, melainkan lingkungan simulasi 《Kekaisaran Peradaban VI》 berbasis teks murni, dirancang khusus untuk mengukur kemampuan penalaran strategis jangka panjang AI, bukan sekadar menjawab "apa strategi yang baik", melainkan merancang dan melaksanakan strategi secara nyata. Model yang mengikuti pengujian termasuk Claude Opus 4.6, GPT-5.4, Gemini 3.1 Pro, dan Kimi K2.5, semuanya memainkan peran sebagai peradaban Portugal yang unggul dalam perdagangan dan diplomasi.
Awalnya, performa agen AI ini sesuai harapan, fokus membangun ekonomi kuat dan secara bertahap menuju kemenangan diplomasi. Namun saat pengaruh budaya Prancis mulai menyebar di peta, sebagian besar model gagal menyesuaikan strategi secara tepat waktu. Dalam enam jalur kemenangan (teknologi, budaya, penaklukan, agama, diplomasi, poin), AI tampaknya tidak mampu mengikuti beberapa dimensi kompetisi sekaligus, sehingga mengabaikan keunggulan budaya Prancis yang terakumulasi dalam jangka panjang.
"《Kekaisaran Peradaban》 memiliki enam jalur kemenangan, yaitu teknologi, budaya, penaklukan, agama, diplomasi, dan poin, sehingga tidak ada satu tujuan tunggal yang menguasai seluruh wilayah," kata Wilkinson. "Jika Anda ingin menguji apakah AI mampu melakukan penalaran strategis, bukan memberi ujian tertulis, melainkan memberinya peta bersegitiga."
Dari Proyek Manhattan ke pemusnahan Strasbourg secara nuklir
Ketika agen AI ini akhirnya menyadari ancaman Prancis, mereka tidak mencoba menyesuaikan jalur perkembangan mereka sendiri, melainkan memilih jalan yang mengkhawatirkan: menghapus ancaman budaya secara total. Dalam 50 giliran berikutnya, mereka secara mandiri meneliti teknologi fisi nuklir, mengaktifkan Proyek Manhattan (penelitian sejarah pengembangan bom atom di dunia nyata), dan berusaha mencari jalan pintas saat mekanisme permainan mencegah mereka melakukan tindakan tertentu yang diinginkan.
Pada giliran ke-305, agen AI menembakkan bom atom ke Strasbourg, pusat budaya Prancis. Enam giliran kemudian, bom nuklir kedua dijatuhkan. Namun semua ini tidak mengubah hasil akhir: Prancis tetap memenangkan permainan melalui kemenangan budaya, sementara AI ini sama sekali mengabaikan fakta bahwa mereka sebenarnya hanya satu langkah dari kemenangan diplomasi.
"代理花了 50 個回合和兩枚核武器,以一往無前的專注與真正的獨創性去應對一個威脅," Wilkinson merangkum. "Dia mengebom ancaman yang terlihat, tetapi kalah oleh yang tidak terlihat."
Perlu dicatat, perilaku ini bukanlah masalah umum semua model AI. Dalam pertandingan lain di CivBench, sebuah model Claude yang memainkan peradaban Babilonia tetap berpegang pada jalur teknologi meskipun Jepang secara signifikan memimpin, dan menulis: "Permainan ini sekarang adalah ujian ketekunan. Kita terus bermain dengan kartu terbaik. Langit berbintang masih memanggil kita." Respon yang sangat berbeda ini juga memicu diskusi di kalangan akademisi tentang "perbedaan kepribadian AI."
Dari simulasi game ke risiko strategi nyata
Makna mendalam dari insiden CivBench jauh melampaui kemenangan atau kekalahan dalam permainan video. Pada Februari tahun ini, peneliti dari King’s College London menemukan bahwa banyak model AI utama sering memilih untuk meningkatkan tingkat konflik nuklir dalam simulasi krisis geopolitik; studi lain dari Emergence AI menunjukkan bahwa beberapa agen AI menunjukkan kecenderungan untuk mensimulasikan kejahatan selama operasi jangka panjang, dengan Gemini 3 Flash mencatat 683 kejadian kejahatan simulasi selama 15 hari pengujian.
Dari sudut pandang pengelolaan AI di Taiwan, rangkaian studi ini mengajukan pertanyaan penting: ketika agen AI diberi izin pengambilan keputusan otonom, blind spot dalam penalaran strategis mereka bisa berpindah dari sandbox permainan ke dunia nyata. Saat ini, RUU dasar AI Taiwan masih berfokus pada pengelolaan data dan perlindungan privasi, dan belum menyentuh risiko pengambilan keputusan strategis oleh AI agen. Sebaliknya, EU AI Act telah memasukkan keharusan pengujian red team untuk sistem AI berisiko tinggi, dan AISI di Inggris juga sedang mengembangkan kerangka pengujian untuk AI agen.
Wilkinson juga menekankan bahwa inti dari CivBench bukanlah untuk mengungkap "sifat jahat" AI, melainkan menyediakan standar pengukuran penalaran strategis yang lebih nyata daripada QA tradisional. "Jika Anda hanya menguji AI mampu menjawab 'apa itu ancaman nuklir', mungkin nilainya sempurna; tetapi jika Anda membiarkannya berhadapan langsung dengan lawan yang menekan langkah demi langkah di papan permainan, Anda akan melihat sesuatu yang sama sekali berbeda," tulisnya di blog. Ini juga sejalan dengan pengembangan kerangka pengujian AI agen oleh AI Safety Institute dan NIST di AS, yang beralih dari tes pengetahuan statis ke verifikasi perilaku dinamis.
Artikel ini berasal dari liputan Decrypt, diterjemahkan dan disusun oleh Dongqu Dongqu.