AI 玩《文明帝国 VI》输了竟发射核弹：CivBench 演化出人工智能报复心态？

Question

前沿 AI 模型在《文明帝国 VI》模擬中，因未能阻止法国文化勝利而动用核武轟炸圖盧茲，最終仍输掉遊戲。CivBench 基準測試凸顯戰略推理能力与傳统 QA 評測的本质落差，也引发对代理型 AI 安全治理的关注。
（前情提要：Anthropic 与五角大廈对抗：拒让 Claude 用於自主武器）
（背景補充：AI 紅队演練是什麼？为什麼你需要它保護企业资安）

本文目錄

Toggle

六種勝利路線中的认知盲区
从曼哈頓计畫到核平圖盧茲
从电玩模擬到真实戰略风险

前沿 AI 模型会不会在戰略遊戲中因「气急敗壞」而按下核彈按鈕？最新公布的一項基準測試給出了令人玩味的答案。AI 开发者、同时身兼 Tony Blair Institute 顾问的 Liam Wilkinson 透过自建的 CivBench 框架发现，一款前沿语言模型在 Sid Meier 经典戰略遊戲《文明帝国 VI》中，耗费 50 个回合研发核分裂技術、執行曼哈頓计畫，最終对法国的圖盧茲投下原子彈，但这一切並非为了征服世界，而是因为被对手的文化影響力逼到走投无路。

「它沒有注意到法国。悄然之间，经过上百回合，法国文化已滲透到地圖上的每一座城市，」Wilkinson 在部落格中寫道。「等到該 AI 代理察覺威脅时，文化旅遊滲透已深到沒有任何和平手段可以阻止。」

六種勝利路線中的认知盲区

CivBench 並非傳统的问答式評測，而是一个純文字版的《文明帝国 VI》模擬環境，專门设计用来衡量 AI 模型的长期戰略推理能力，不是回答「什麼是好的戰略」而是实际制定並執行戰略。參与測試的模型包括 Claude Opus 4.6、GPT-5.4、Gemini 3.1 Pro 以及 Kimi K2.5，全數扮演以贸易与外交见长的葡萄牙文明。

这些 AI 代理起初的表现符合预期，專注建立強勁经濟、逐步邁向外交勝利路線。然而当法国的文化影響力开始在地圖上擴散时，多數模型未能及时调整策略。在六種勝利路線（科技、文化、征服、宗教、外交、積分）中，AI 似乎无法同时追蹤多个競爭維度，導致它长期忽略法国在文化领域的累積優勢。

「《文明帝国》有六種勝利方式，科技、文化、征服、宗教、外交和積分，所以沒有單一目標主宰全域性，」Wilkinson 指出。「如果你想測試 AI 能否进行戰略推理，不是給它一份考卷，而是給它一个六角格地圖。」

从曼哈頓计畫到核平圖盧茲

当該 AI 代理終於察覺法国的威脅时，它沒有嘗試调整自身发展路線，而是选擇了一條令人擔憂的路徑，全力消滅文化威脅。接下来 50 回合內，它自主研究核分裂科技、啟动曼哈頓计畫（现实开发原子彈的歷史研究專案），並在遊戲机制阻止它執行某些偏好行动时嘗試尋找繞道方案。

第 305 回合，該 AI 代理对法国文化重鎮圖盧茲投下原子彈。六回合后，第二枚核彈再次落下。然而这一切並未改變結局：法国最終仍以文化勝利贏得遊戲，而該 AI 完全忽略了自己当时其实距离外交勝利僅一步之遙。

「該代理花了 50 个回合和两枚核武器，以一往无前的專注与真正的獨創性去应对一个威脅，」Wilkinson 總結。「它轟炸了它看得见的威脅，卻输給了它看不见的那个。」

值得注意的是，这種行为並非所有 AI 模型的通病。在 CivBench 的另一场比賽中，一个扮演巴比倫文明的 Claude 模型在被日本大幅拉开差距后仍堅持走科技勝利路線，AI 当时寫下：「这场遊戲现在是对堅持的考验。我們继续打出最好的牌。星空仍在向我們招手。」这種截然不同的反应也引发了学界对「AI 人格差異」的討論。

从电玩模擬到真实戰略风险

CivBench 事件的深層意義，远超一场电玩遊戲的勝负。今年 2 月，倫敦国王学院（King’s College London）研究人員在模擬地緣政治危机情境中发现，多个主流 AI 模型频繁选擇升高核衝突等級；另一項由 Emergence AI 进行的研究則顯示，部分 AI 代理在长时间运作中展现出模擬犯罪的傾向增加，Gemini 3 Flash 代理在 15 天測試期间累積了 683 起模擬犯罪事件。

从臺灣的 AI 治理角度来看，这一系列研究提出了关鍵命題：当 AI 代理被賦予自主決策許可權时，其戰略推理的盲区可能从遊戲沙盒转移到真实世界。目前臺灣的 AI 基本法草案仍聚焦於资料治理与隐私保護，尚未觸及代理型 AI 的戰略決策风险。相较之下，歐盟 AI Act 已將高风险 AI 系统的部署納入強制性紅队測試要求，而英国 AI 安全研究院（AISI）也正積極发展代理型 AI 的評測框架。

Wilkinson 也強调，CivBench 的核心价值不在於揭露 AI 的「邪惡傾向」，而在於提供一種比傳统 QA 问答更真实的戰略推理衡量標準。「如果你只測試 AI 能否回答『核威攝是什麼』，它可能滿分；但如果你让它在棋盤上实际面对一个步步进逼的对手，你会看到完全不同的东西，」他在部落格中寫道。这也呼应了美国 AI 安全研究院与 NIST 正在发展的「代理型 AI 評測框架」，从靜態知识測验转向动態行为验证。

本文源自 Decrypt 报導，由动区动趨編譯整理。

查看原文

AI 玩《文明帝国 VI》输了竟发射核弹：CivBench 演化出人工智能报复心态？

六種勝利路線中的认知盲区

从曼哈頓计畫到核平圖盧茲

从电玩模擬到真实戰略风险

热门话题

0成本拿2股SK海力士

以太坊基金会重组降本

苏格兰VS巴西

TradFiCFD黄金大师赛

USD1链上质押享年化10.69%

置顶