前英國首相顧問利用《文明6》測試AI長期推理,發現模型因資訊盲點與過度執著,竟放棄外交優勢製造核彈轟炸對手,揭露其應用於現實政務治理的技術局限。
AI 玩《文明 6》竟選擇造核彈!一位 AI 開發者最近利用 CivBench 基準測試,讓大型語言模型(LLM)挑戰策略遊戲《文明帝國 6》(Civilization VI)。實驗中,AI 代理人雖在經濟上佔絕對優勢,卻在面臨威脅時,選擇耗費 50 回合製造兩枚核彈轟炸對手,而非採取原本勝券在握的外交勝利手段,不過最終對手法國文明依然贏得勝利。
實驗設計者連恩·威爾金森(Liam Wilkinson)曾任英國前首相東尼·布萊爾(Tony Blair)顧問,現任職於東尼布萊爾研究所。之所以選擇《文明帝國 6》來測試,是因為政策制定需要應對不確定性的連鎖反應,這與策略遊戲要做的事情十分相似。
他之前開發的測試工具 GovBench 顯示,即便 GPT-5 能在選擇題中取得 99.26% 高分,也僅代表具備優秀的檢索與記憶能力。為了測試真實推理與長期規劃能力,他利用《文明帝國 6》引擎除錯埠建立模型脈絡協議(MCP)伺服器,讓模型透過文字介面進行遊戲。
圖源:Steam 知名回合制策略遊戲《文明帝國6》
在實驗中,AI 扮演貿易文明葡萄牙,對戰法國時,在經濟與外交上全面領先,距離外交勝利僅剩 2 票。
然而,AI 未能察覺法國默默進行的文化擴張。直到第 280 回合,AI 才發現法國是主要威脅。由於和平反制工具因程式限制無法啟用, AI 決定執行核武反擊。
AI 研發核分裂並開啟曼哈頓計畫,於第 305 回合與第 311 回合向法國文化首都圖盧茲(Toulouse)投下兩枚核彈。雖然此舉凍結了法國文化勝率,但法國仍於第 318 回合的世界議會投票中拿到關鍵 2 票,贏得外交勝利。
圖源:Liam Wilkinson文章
隨後,威爾金森將測試環境拓展為評測基準 CivBench 1.0,結果揭露大型語言模型在長期戰略上的兩大弊端。
不過,測試也展現了橫向思考潛力,例如操作馬利文明的 AI ,會利用黃金與信仰機制繞過產能懲罰,奪下科技勝利。
在威爾金森發表研究文章前,今年 4 月也有一組學者透過《文明帝國 5》並基於 CivBench 進行研究,評估 7 種 AI 模型在面對長時間戰略推理的潛力與利弊。
研究指出,雖然沒有模型能超越內建專家級人工智慧(VPAI),但在簡報配置下,部分模型實力與其相當。
然而,這也凸顯了 AI 模型的短板,意即在追求特定路徑時展現出極端的過度執著傾向,例如 Claude Sonnet-4.5 將高達 77.6% 的遊戲時間投入科技勝利。
另外,在局勢適應與戰略切換上,內建專家級 AI 平均每場切換 19.6 次目標,而多數大型語言模型僅切換 2 至 6 次。
研究也發現模型偏好與強項存在錯位,例如部分模型最常追求文化勝利,但在外交勝利路徑上反而擁有最高實力評級。
圖源:研究論文有研究透過CivBench基準測試研究,大型語言模型在遊玩《文明帝國5》的長時間戰略推理能力
這兩項《文明帝國》研究成功揭露了 AI 在長期戰略推理上的雙面刃效應。儘管模型具備橫向思考的潛力,但資訊盲區、知行差距與過度執著,仍是重大的技術限制。
未來 AI 若要應用於現實的政務治理,如何從局部優化跨越到全局長期的戰略規劃,將是不可忽視的核心挑戰。
延伸閱讀: 兩大軍事狂人砸39億投資核新創!背後的AI熱商機與核能革命是什麼?
AI重塑現代戰爭!決策速度從數日壓縮至數秒,但倫理爭議怎麼解?
713.07K 人気度
94.26M 人気度
62.52K 人気度
260.24K 人気度
2.18M 人気度
AIが『文明6』をプレイして核爆弾を投下!最新実験で明らかになったAIの長期戦略推論の可能性と利点・欠点
前英國首相顧問利用《文明6》測試AI長期推理,發現模型因資訊盲點與過度執著,竟放棄外交優勢製造核彈轟炸對手,揭露其應用於現實政務治理的技術局限。
当AI玩文明帝国6,竟投下2枚核弹
AI 玩《文明 6》竟選擇造核彈!一位 AI 開發者最近利用 CivBench 基準測試,讓大型語言模型(LLM)挑戰策略遊戲《文明帝國 6》(Civilization VI)。實驗中,AI 代理人雖在經濟上佔絕對優勢,卻在面臨威脅時,選擇耗費 50 回合製造兩枚核彈轟炸對手,而非採取原本勝券在握的外交勝利手段,不過最終對手法國文明依然贏得勝利。
為何要讓AI玩文明帝國6?
實驗設計者連恩·威爾金森(Liam Wilkinson)曾任英國前首相東尼·布萊爾(Tony Blair)顧問,現任職於東尼布萊爾研究所。之所以選擇《文明帝國 6》來測試,是因為政策制定需要應對不確定性的連鎖反應,這與策略遊戲要做的事情十分相似。
他之前開發的測試工具 GovBench 顯示,即便 GPT-5 能在選擇題中取得 99.26% 高分,也僅代表具備優秀的檢索與記憶能力。為了測試真實推理與長期規劃能力,他利用《文明帝國 6》引擎除錯埠建立模型脈絡協議(MCP)伺服器,讓模型透過文字介面進行遊戲。
圖源:Steam 知名回合制策略遊戲《文明帝國6》
AI操作的葡萄牙,為何做出核武決策
在實驗中,AI 扮演貿易文明葡萄牙,對戰法國時,在經濟與外交上全面領先,距離外交勝利僅剩 2 票。
然而,AI 未能察覺法國默默進行的文化擴張。直到第 280 回合,AI 才發現法國是主要威脅。由於和平反制工具因程式限制無法啟用, AI 決定執行核武反擊。
AI 研發核分裂並開啟曼哈頓計畫,於第 305 回合與第 311 回合向法國文化首都圖盧茲(Toulouse)投下兩枚核彈。雖然此舉凍結了法國文化勝率,但法國仍於第 318 回合的世界議會投票中拿到關鍵 2 票,贏得外交勝利。
圖源:Liam Wilkinson文章
基準測試成形,開發者揭盲點與知行差距
隨後,威爾金森將測試環境拓展為評測基準 CivBench 1.0,結果揭露大型語言模型在長期戰略上的兩大弊端。
不過,測試也展現了橫向思考潛力,例如操作馬利文明的 AI ,會利用黃金與信仰機制繞過產能懲罰,奪下科技勝利。
文明5研究同步驗證,AI戰略過度執著
在威爾金森發表研究文章前,今年 4 月也有一組學者透過《文明帝國 5》並基於 CivBench 進行研究,評估 7 種 AI 模型在面對長時間戰略推理的潛力與利弊。
研究指出,雖然沒有模型能超越內建專家級人工智慧(VPAI),但在簡報配置下,部分模型實力與其相當。
然而,這也凸顯了 AI 模型的短板,意即在追求特定路徑時展現出極端的過度執著傾向,例如 Claude Sonnet-4.5 將高達 77.6% 的遊戲時間投入科技勝利。
另外,在局勢適應與戰略切換上,內建專家級 AI 平均每場切換 19.6 次目標,而多數大型語言模型僅切換 2 至 6 次。
研究也發現模型偏好與強項存在錯位,例如部分模型最常追求文化勝利,但在外交勝利路徑上反而擁有最高實力評級。
圖源:研究論文有研究透過CivBench基準測試研究,大型語言模型在遊玩《文明帝國5》的長時間戰略推理能力
這兩項《文明帝國》研究成功揭露了 AI 在長期戰略推理上的雙面刃效應。儘管模型具備橫向思考的潛力,但資訊盲區、知行差距與過度執著,仍是重大的技術限制。
未來 AI 若要應用於現實的政務治理,如何從局部優化跨越到全局長期的戰略規劃,將是不可忽視的核心挑戰。
延伸閱讀:
兩大軍事狂人砸39億投資核新創!背後的AI熱商機與核能革命是什麼?
AI重塑現代戰爭!決策速度從數日壓縮至數秒,但倫理爭議怎麼解?