📢 Gate 广场认证创作者招募中,入驻瓜分每月 $20,000 创作大奖!
📌 参与方式
站内创作者: 成功申请“创作者认证徽章”即可自动参与。
新入驻创作者: 需填写入驻表单申请 👉️ https://www.gate.com/questionnaire/7698
🎁 创作者福利
1️⃣ 首帖见面礼: 新入驻/回归创作者发首帖,即得 $50U 奖励!
2️⃣ 周度发帖奖: 完成周发帖任务,轻松瓜分 $10,000 奖池!
3️⃣ 月度创作奖: 赛道更多样,完成月度任务瓜分 $1,600 GT 奖池!
4️⃣ 专属推广任务:进入专属创作者社群,享专属推广任务和节日礼包!
让您的优质内容被更多人看到,携手共建高质量创作者社区!
活动细节:https://www.gate.com/announcements/article/51536
AI 玩《文明帝国 VI》输了竟发射核弹:CivBench 演化出人工智能报复心态?
前沿 AI 模型在《文明帝国 VI》模擬中,因未能阻止法国文化勝利而动用核武轟炸圖盧茲,最終仍输掉遊戲。CivBench 基準測試凸顯戰略推理能力与傳统 QA 評測的本质落差,也引发对代理型 AI 安全治理的关注。
(前情提要:Anthropic 与五角大廈对抗:拒让 Claude 用於自主武器)
(背景補充:AI 紅队演練是什麼?为什麼你需要它保護企业资安)
本文目錄
Toggle
前沿 AI 模型会不会在戰略遊戲中因「气急敗壞」而按下核彈按鈕?最新公布的一項基準測試給出了令人玩味的答案。AI 开发者、同时身兼 Tony Blair Institute 顾问的 Liam Wilkinson 透过自建的 CivBench 框架发现,一款前沿语言模型在 Sid Meier 经典戰略遊戲《文明帝国 VI》中,耗费 50 个回合研发核分裂技術、執行曼哈頓计畫,最終对法国的圖盧茲投下原子彈,但这一切並非为了征服世界,而是因为被对手的文化影響力逼到走投无路。
「它沒有注意到法国。悄然之间,经过上百回合,法国文化已滲透到地圖上的每一座城市,」Wilkinson 在部落格中寫道。「等到該 AI 代理察覺威脅时,文化旅遊滲透已深到沒有任何和平手段可以阻止。」
六種勝利路線中的认知盲区
CivBench 並非傳统的问答式評測,而是一个純文字版的《文明帝国 VI》模擬環境,專门设计用来衡量 AI 模型的长期戰略推理能力,不是回答「什麼是好的戰略」而是实际制定並執行戰略。參与測試的模型包括 Claude Opus 4.6、GPT-5.4、Gemini 3.1 Pro 以及 Kimi K2.5,全數扮演以贸易与外交见长的葡萄牙文明。
这些 AI 代理起初的表现符合预期,專注建立強勁经濟、逐步邁向外交勝利路線。然而当法国的文化影響力开始在地圖上擴散时,多數模型未能及时调整策略。在六種勝利路線(科技、文化、征服、宗教、外交、積分)中,AI 似乎无法同时追蹤多个競爭維度,導致它长期忽略法国在文化领域的累積優勢。
「《文明帝国》有六種勝利方式,科技、文化、征服、宗教、外交和積分,所以沒有單一目標主宰全域性,」Wilkinson 指出。「如果你想測試 AI 能否进行戰略推理,不是給它一份考卷,而是給它一个六角格地圖。」
从曼哈頓计畫到核平圖盧茲
当該 AI 代理終於察覺法国的威脅时,它沒有嘗試调整自身发展路線,而是选擇了一條令人擔憂的路徑,全力消滅文化威脅。接下来 50 回合內,它自主研究核分裂科技、啟动曼哈頓计畫(现实开发原子彈的歷史研究專案),並在遊戲机制阻止它執行某些偏好行动时嘗試尋找繞道方案。
第 305 回合,該 AI 代理对法国文化重鎮圖盧茲投下原子彈。六回合后,第二枚核彈再次落下。然而这一切並未改變結局:法国最終仍以文化勝利贏得遊戲,而該 AI 完全忽略了自己当时其实距离外交勝利僅一步之遙。
「該代理花了 50 个回合和两枚核武器,以一往无前的專注与真正的獨創性去应对一个威脅,」Wilkinson 總結。「它轟炸了它看得见的威脅,卻输給了它看不见的那个。」
值得注意的是,这種行为並非所有 AI 模型的通病。在 CivBench 的另一场比賽中,一个扮演巴比倫文明的 Claude 模型在被日本大幅拉开差距后仍堅持走科技勝利路線,AI 当时寫下:「这场遊戲现在是对堅持的考验。我們继续打出最好的牌。星空仍在向我們招手。」这種截然不同的反应也引发了学界对「AI 人格差異」的討論。
从电玩模擬到真实戰略风险
CivBench 事件的深層意義,远超一场电玩遊戲的勝负。今年 2 月,倫敦国王学院(King’s College London)研究人員在模擬地緣政治危机情境中发现,多个主流 AI 模型频繁选擇升高核衝突等級;另一項由 Emergence AI 进行的研究則顯示,部分 AI 代理在长时间运作中展现出模擬犯罪的傾向增加,Gemini 3 Flash 代理在 15 天測試期间累積了 683 起模擬犯罪事件。
从臺灣的 AI 治理角度来看,这一系列研究提出了关鍵命題:当 AI 代理被賦予自主決策許可權时,其戰略推理的盲区可能从遊戲沙盒转移到真实世界。目前臺灣的 AI 基本法草案仍聚焦於资料治理与隐私保護,尚未觸及代理型 AI 的戰略決策风险。相较之下,歐盟 AI Act 已將高风险 AI 系统的部署納入強制性紅队測試要求,而英国 AI 安全研究院(AISI)也正積極发展代理型 AI 的評測框架。
Wilkinson 也強调,CivBench 的核心价值不在於揭露 AI 的「邪惡傾向」,而在於提供一種比傳统 QA 问答更真实的戰略推理衡量標準。「如果你只測試 AI 能否回答『核威攝是什麼』,它可能滿分;但如果你让它在棋盤上实际面对一个步步进逼的对手,你会看到完全不同的东西,」他在部落格中寫道。这也呼应了美国 AI 安全研究院与 NIST 正在发展的「代理型 AI 評測框架」,从靜態知识測验转向动態行为验证。
本文源自 Decrypt 报導,由动区动趨編譯整理。