AI玩《文明6》竟选择丢核弹！最新实验揭露AI长期战略推理潜力与利弊

2026-06-24 09:40:42

前英国首相顾问利用《文明6》测试AI长期推理，发现模型因信息盲点与过度执着，竟放弃外交优势制造核弹轰炸对手，揭露其应用于现实政务治理的技术局限。

当AI玩文明帝国6，竟投下2枚核弹

AI 玩《文明 6》竟选择造核弹！一位 AI 开发者最近利用 CivBench 基准测试，让大型语言模型（LLM）挑战策略游戏《文明帝国 6》（Civilization VI）。实验中，AI 代理人虽在经济上占绝对优势，却在面对威胁时，选择耗费 50 回合制造两枚核弹轰炸对手，而非采取原本胜券在握的外交胜利手段，不过最终对手法国文明依然赢得胜利。

为何要让AI玩文明帝国6？

实验设计者连恩·威尔金森（Liam Wilkinson）曾任英国前首相托尼·布莱尔（Tony Blair）顾问，现任职于托尼·布莱尔研究所。之所以选择《文明帝国 6》来测试，是因为政策制定需要应对不确定性的连锁反应，这与策略游戏要做的事情十分相似。

他之前开发的测试工具 GovBench 显示，即便 GPT-5 能在选择题中取得 99.26% 高分，也仅代表具备优秀的检索与记忆能力。为了测试真实推理与长期规划能力，他利用《文明帝国 6》引擎除错端建立模型脉络协议（MCP）服务器，让模型通过文字界面进行游戏。

图源：Steam 知名回合制策略游戏《文明帝国6》

AI操作的葡萄牙，为何做出核武决策

在实验中，AI 扮演贸易文明葡萄牙，对战法国时，在经济与外交上全面领先，距离外交胜利仅剩 2 票。

然而，AI 未能察觉法国默默进行的文化扩张。直到第 280 回合，AI 才发现法国是主要威胁。由于和平反制工具因程序限制无法启用， AI 决定执行核武反击。

AI 研发核分裂并开启曼哈顿计划，于第 305 回合与第 311 回合向法国文化首都图卢兹（Toulouse）投下两枚核弹。虽然此举冻结了法国文化胜率，但法国仍于第 318 回合的世界议会投票中拿到关键 2 票，赢得外交胜利。

图源：Liam Wilkinson文章

基准测试成形，开发者揭盲点与知行差距

随后，威尔金森将测试环境拓展为评测基准 CivBench 1.0，结果揭露大型语言模型在长期战略上的两大弊端。

**首先是感知效应（sensorium effect），**由于模型必须主动通过工具调用获取数据，容易对未询问的信息产生盲点。统计显示，在 20 场失败赛局中，人工智能有 7 场在失败前 20 回合内，从未检查过对手进度。
**其次是知行差距（knowing-doing gap），**模型虽能在日志中写下清晰规划，实际落实率却偏低，如 Claude 的执行率仅 48.2%，GPT-5.4 为 63.2%。

不过，测试也展现了横向思考潜力，例如操作马里文明的 AI ，会利用黄金与信仰机制绕过产能惩罚，夺下科技胜利。

文明5研究同步验证，AI战略过度执着

在威尔金森发表研究文章前，今年 4 月也有一组学者通过《文明帝国 5》并基于 CivBench 进行研究，评估 7 种 AI 模型在面对长时间战略推理的潜力与利弊。

研究指出，虽然没有模型能超越内建专家级人工智能（VPAI），但在简报配置下，部分模型实力与其相当。

然而，这也凸显了 AI 模型的短板，意味着在追求特定路径时展现出极端的过度执着倾向，例如 Claude Sonnet-4.5 将高达 77.6% 的游戏时间投入科技胜利。

另外，在局势适应与战略切换上，内建专家级 AI 平均每场切换 19.6 次目标，而多数大型语言模型仅切换 2 至 6 次。

研究也发现模型偏好与强项存在错位，例如部分模型最常追求文化胜利，但在外交胜利路径上反而拥有最高实力评级。

图源：研究论文有研究透过CivBench基准测试研究，大型语言模型在游玩《文明帝国5》的长时间战略推理能力

这两项《文明帝国》研究成功揭露了 AI 在长期战略推理上的双刃剑效应。尽管模型具备横向思考的潜力，但信息盲区、知行差距与过度执着，仍是重大的技术限制。

未来 AI 若要应用于现实的政务治理，如何从局部优化跨越到全局长期的战略规划，将是不可忽视的核心挑战。

延伸阅读：
两大军事狂人砸39亿投资核新创！背后的AI热商机与核能革命是什么？

AI重塑现代战争！决策速度从数日压缩至数秒，但伦理争议怎么解？

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

赞赏
点赞
评论
转发
分享

请输入评论内容

暂无评论

热门话题
查看更多
#
0成本拿2股SK海力士
136.63万热度
#
以太坊基金会重组降本
9426.71万热度
#
苏格兰VS巴西
27.37万热度
#
TradFiCFD黄金大师赛
218.22万热度
#
USD1链上质押享年化10.69%
46.89万热度

AI玩《文明6》竟选择丢核弹！最新实验揭露AI长期战略推理潜力与利弊

当AI玩文明帝国6，竟投下2枚核弹

为何要让AI玩文明帝国6？

AI操作的葡萄牙，为何做出核武决策

基准测试成形，开发者揭盲点与知行差距

文明5研究同步验证，AI战略过度执着

热门话题

0成本拿2股SK海力士

以太坊基金会重组降本

苏格兰VS巴西

TradFiCFD黄金大师赛

USD1链上质押享年化10.69%

置顶