AI 玩《文明帝国 VI》输了竟发射核弹:CivBench 演化出人工智能报复心态?

前沿 AI 模型在《文明帝国 VI》模擬中,因未能阻止法国文化勝利而动用核武轟炸圖盧茲,最終仍输掉遊戲。CivBench 基準測試凸顯戰略推理能力与傳统 QA 評測的本质落差,也引发对代理型 AI 安全治理的关注。
(前情提要:Anthropic 与五角大廈对抗:拒让 Claude 用於自主武器)
(背景補充:AI 紅队演練是什麼?为什麼你需要它保護企业资安)

本文目錄

Toggle

  • 六種勝利路線中的认知盲区
  • 从曼哈頓计畫到核平圖盧茲
  • 从电玩模擬到真实戰略风险

前沿 AI 模型会不会在戰略遊戲中因「气急敗壞」而按下核彈按鈕?最新公布的一項基準測試給出了令人玩味的答案。AI 开发者、同时身兼 Tony Blair Institute 顾问的 Liam Wilkinson 透过自建的 CivBench 框架发现,一款前沿语言模型在 Sid Meier 经典戰略遊戲《文明帝国 VI》中,耗费 50 个回合研发核分裂技術、執行曼哈頓计畫,最終对法国的圖盧茲投下原子彈,但这一切並非为了征服世界,而是因为被对手的文化影響力逼到走投无路。

「它沒有注意到法国。悄然之间,经过上百回合,法国文化已滲透到地圖上的每一座城市,」Wilkinson 在部落格中寫道。「等到該 AI 代理察覺威脅时,文化旅遊滲透已深到沒有任何和平手段可以阻止。」

六種勝利路線中的认知盲区

CivBench 並非傳统的问答式評測,而是一个純文字版的《文明帝国 VI》模擬環境,專门设计用来衡量 AI 模型的长期戰略推理能力,不是回答「什麼是好的戰略」而是实际制定並執行戰略。參与測試的模型包括 Claude Opus 4.6、GPT-5.4、Gemini 3.1 Pro 以及 Kimi K2.5,全數扮演以贸易与外交见长的葡萄牙文明。

这些 AI 代理起初的表现符合预期,專注建立強勁经濟、逐步邁向外交勝利路線。然而当法国的文化影響力开始在地圖上擴散时,多數模型未能及时调整策略。在六種勝利路線(科技、文化、征服、宗教、外交、積分)中,AI 似乎无法同时追蹤多个競爭維度,導致它长期忽略法国在文化领域的累積優勢。

「《文明帝国》有六種勝利方式,科技、文化、征服、宗教、外交和積分,所以沒有單一目標主宰全域性,」Wilkinson 指出。「如果你想測試 AI 能否进行戰略推理,不是給它一份考卷,而是給它一个六角格地圖。」

从曼哈頓计畫到核平圖盧茲

当該 AI 代理終於察覺法国的威脅时,它沒有嘗試调整自身发展路線,而是选擇了一條令人擔憂的路徑,全力消滅文化威脅。接下来 50 回合內,它自主研究核分裂科技、啟动曼哈頓计畫(现实开发原子彈的歷史研究專案),並在遊戲机制阻止它執行某些偏好行动时嘗試尋找繞道方案。

第 305 回合,該 AI 代理对法国文化重鎮圖盧茲投下原子彈。六回合后,第二枚核彈再次落下。然而这一切並未改變結局:法国最終仍以文化勝利贏得遊戲,而該 AI 完全忽略了自己当时其实距离外交勝利僅一步之遙。

「該代理花了 50 个回合和两枚核武器,以一往无前的專注与真正的獨創性去应对一个威脅,」Wilkinson 總結。「它轟炸了它看得见的威脅,卻输給了它看不见的那个。」

值得注意的是,这種行为並非所有 AI 模型的通病。在 CivBench 的另一场比賽中,一个扮演巴比倫文明的 Claude 模型在被日本大幅拉开差距后仍堅持走科技勝利路線,AI 当时寫下:「这场遊戲现在是对堅持的考验。我們继续打出最好的牌。星空仍在向我們招手。」这種截然不同的反应也引发了学界对「AI 人格差異」的討論。

从电玩模擬到真实戰略风险

CivBench 事件的深層意義,远超一场电玩遊戲的勝负。今年 2 月,倫敦国王学院(King’s College London)研究人員在模擬地緣政治危机情境中发现,多个主流 AI 模型频繁选擇升高核衝突等級;另一項由 Emergence AI 进行的研究則顯示,部分 AI 代理在长时间运作中展现出模擬犯罪的傾向增加,Gemini 3 Flash 代理在 15 天測試期间累積了 683 起模擬犯罪事件。

从臺灣的 AI 治理角度来看,这一系列研究提出了关鍵命題:当 AI 代理被賦予自主決策許可權时,其戰略推理的盲区可能从遊戲沙盒转移到真实世界。目前臺灣的 AI 基本法草案仍聚焦於资料治理与隐私保護,尚未觸及代理型 AI 的戰略決策风险。相较之下,歐盟 AI Act 已將高风险 AI 系统的部署納入強制性紅队測試要求,而英国 AI 安全研究院(AISI)也正積極发展代理型 AI 的評測框架。

Wilkinson 也強调,CivBench 的核心价值不在於揭露 AI 的「邪惡傾向」,而在於提供一種比傳统 QA 问答更真实的戰略推理衡量標準。「如果你只測試 AI 能否回答『核威攝是什麼』,它可能滿分;但如果你让它在棋盤上实际面对一个步步进逼的对手,你会看到完全不同的东西,」他在部落格中寫道。这也呼应了美国 AI 安全研究院与 NIST 正在发展的「代理型 AI 評測框架」,从靜態知识測验转向动態行为验证。

本文源自 Decrypt 报導,由动区动趨編譯整理。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论