📢 Gate 广场认证创作者招募中,入驻瓜分每月 $20,000 创作大奖!
📌 参与方式
站内创作者: 成功申请“创作者认证徽章”即可自动参与。
新入驻创作者: 需填写入驻表单申请 👉️ https://www.gate.com/questionnaire/7698
🎁 创作者福利
1️⃣ 首帖见面礼: 新入驻/回归创作者发首帖,即得 $50U 奖励!
2️⃣ 周度发帖奖: 完成周发帖任务,轻松瓜分 $10,000 奖池!
3️⃣ 月度创作奖: 赛道更多样,完成月度任务瓜分 $1,600 GT 奖池!
4️⃣ 专属推广任务:进入专属创作者社群,享专属推广任务和节日礼包!
让您的优质内容被更多人看到,携手共建高质量创作者社区!
活动细节:https://www.gate.com/announcements/article/51536
AI玩《文明6》竟选择丢核弹!最新实验揭露AI长期战略推理潜力与利弊
前英国首相顾问利用《文明6》测试AI长期推理,发现模型因信息盲点与过度执着,竟放弃外交优势制造核弹轰炸对手,揭露其应用于现实政务治理的技术局限。
当AI玩文明帝国6,竟投下2枚核弹
AI 玩《文明 6》竟选择造核弹!一位 AI 开发者最近利用 CivBench 基准测试,让大型语言模型(LLM)挑战策略游戏《文明帝国 6》(Civilization VI)。实验中,AI 代理人虽在经济上占绝对优势,却在面对威胁时,选择耗费 50 回合制造两枚核弹轰炸对手,而非采取原本胜券在握的外交胜利手段,不过最终对手法国文明依然赢得胜利。
为何要让AI玩文明帝国6?
实验设计者连恩·威尔金森(Liam Wilkinson)曾任英国前首相托尼·布莱尔(Tony Blair)顾问,现任职于托尼·布莱尔研究所。之所以选择《文明帝国 6》来测试,是因为政策制定需要应对不确定性的连锁反应,这与策略游戏要做的事情十分相似。
他之前开发的测试工具 GovBench 显示,即便 GPT-5 能在选择题中取得 99.26% 高分,也仅代表具备优秀的检索与记忆能力。为了测试真实推理与长期规划能力,他利用《文明帝国 6》引擎除错端建立模型脉络协议(MCP)服务器,让模型通过文字界面进行游戏。
图源:Steam 知名回合制策略游戏《文明帝国6》
AI操作的葡萄牙,为何做出核武决策
在实验中,AI 扮演贸易文明葡萄牙,对战法国时,在经济与外交上全面领先,距离外交胜利仅剩 2 票。
然而,AI 未能察觉法国默默进行的文化扩张。直到第 280 回合,AI 才发现法国是主要威胁。由于和平反制工具因程序限制无法启用, AI 决定执行核武反击。
AI 研发核分裂并开启曼哈顿计划,于第 305 回合与第 311 回合向法国文化首都图卢兹(Toulouse)投下两枚核弹。虽然此举冻结了法国文化胜率,但法国仍于第 318 回合的世界议会投票中拿到关键 2 票,赢得外交胜利。
图源:Liam Wilkinson文章
基准测试成形,开发者揭盲点与知行差距
随后,威尔金森将测试环境拓展为评测基准 CivBench 1.0,结果揭露大型语言模型在长期战略上的两大弊端。
不过,测试也展现了横向思考潜力,例如操作马里文明的 AI ,会利用黄金与信仰机制绕过产能惩罚,夺下科技胜利。
文明5研究同步验证,AI战略过度执着
在威尔金森发表研究文章前,今年 4 月也有一组学者通过《文明帝国 5》并基于 CivBench 进行研究,评估 7 种 AI 模型在面对长时间战略推理的潜力与利弊。
研究指出,虽然没有模型能超越内建专家级人工智能(VPAI),但在简报配置下,部分模型实力与其相当。
然而,这也凸显了 AI 模型的短板,意味着在追求特定路径时展现出极端的过度执着倾向,例如 Claude Sonnet-4.5 将高达 77.6% 的游戏时间投入科技胜利。
另外,在局势适应与战略切换上,内建专家级 AI 平均每场切换 19.6 次目标,而多数大型语言模型仅切换 2 至 6 次。
研究也发现模型偏好与强项存在错位,例如部分模型最常追求文化胜利,但在外交胜利路径上反而拥有最高实力评级。
图源:研究论文有研究透过CivBench基准测试研究,大型语言模型在游玩《文明帝国5》的长时间战略推理能力
这两项《文明帝国》研究成功揭露了 AI 在长期战略推理上的双刃剑效应。尽管模型具备横向思考的潜力,但信息盲区、知行差距与过度执着,仍是重大的技术限制。
未来 AI 若要应用于现实的政务治理,如何从局部优化跨越到全局长期的战略规划,将是不可忽视的核心挑战。
延伸阅读:
两大军事狂人砸39亿投资核新创!背后的AI热商机与核能革命是什么?
AI重塑现代战争!决策速度从数日压缩至数秒,但伦理争议怎么解?