AI 玩《文明 6》竟選擇造核彈！一位 AI 開發者最近利用 CivBench 基準測試，讓大型語言模型（LLM）挑戰策略遊戲《文明帝國 6》（Civilization VI）。實驗中，AI 代理人雖在經濟上佔絕對優勢，卻在面臨威脅時，選擇耗費 50 回合製造兩枚核彈轟炸對手，而非採取原本勝券在握的外交勝利手段，不過最終對手法國文明依然贏得勝利。

為何要讓AI玩文明帝國6？

實驗設計者連恩·威爾金森（Liam Wilkinson）曾任英國前首相東尼·布萊爾（Tony Blair）顧問，現任職於東尼布萊爾研究所。之所以選擇《文明帝國 6》來測試，是因為政策制定需要應對不確定性的連鎖反應，這與策略遊戲要做的事情十分相似。

他之前開發的測試工具 GovBench 顯示，即便 GPT-5 能在選擇題中取得 99.26% 高分，也僅代表具備優秀的檢索與記憶能力。為了測試真實推理與長期規劃能力，他利用《文明帝國 6》引擎除錯埠建立模型脈絡協議（MCP）伺服器，讓模型透過文字介面進行遊戲。

圖源：Steam 知名回合制策略遊戲《文明帝國6》

AI操作的葡萄牙，為何做出核武決策

在實驗中，AI 扮演貿易文明葡萄牙，對戰法國時，在經濟與外交上全面領先，距離外交勝利僅剩 2 票。

然而，AI 未能察覺法國默默進行的文化擴張。直到第 280 回合，AI 才發現法國是主要威脅。由於和平反制工具因程式限制無法啟用， AI 決定執行核武反擊。

AI 研發核分裂並開啟曼哈頓計畫，於第 305 回合與第 311 回合向法國文化首都圖盧茲（Toulouse）投下兩枚核彈。雖然此舉凍結了法國文化勝率，但法國仍於第 318 回合的世界議會投票中拿到關鍵 2 票，贏得外交勝利。

圖源：Liam Wilkinson文章

基準測試成形，開發者揭盲點與知行差距

隨後，威爾金森將測試環境拓展為評測基準 CivBench 1.0，結果揭露大型語言模型在長期戰略上的兩大弊端。

**首先是感知效應（sensorium effect），**由於模型必須主動透過工具調用獲取數據，容易對未詢問的資訊產生盲點。統計顯示，在 20 場失敗賽局中，人工智慧有 7 場在落敗前 20 回合內，從未檢查過對手進度。
**其次是知行差距（knowing-doing gap），**模型雖能在日誌中寫下清晰規劃，實際落實率卻偏低，如 Claude 的執行率僅 48.2%，GPT-5.4 為 63.2%。

不過，測試也展現了橫向思考潛力，例如操作馬利文明的 AI ，會利用黃金與信仰機制繞過產能懲罰，奪下科技勝利。

文明5研究同步驗證，AI戰略過度執著

在威爾金森發表研究文章前，今年 4 月也有一組學者透過《文明帝國 5》並基於 CivBench 進行研究，評估 7 種 AI 模型在面對長時間戰略推理的潛力與利弊。

研究指出，雖然沒有模型能超越內建專家級人工智慧（VPAI），但在簡報配置下，部分模型實力與其相當。

然而，這也凸顯了 AI 模型的短板，意即在追求特定路徑時展現出極端的過度執著傾向，例如 Claude Sonnet-4.5 將高達 77.6% 的遊戲時間投入科技勝利。

另外，在局勢適應與戰略切換上，內建專家級 AI 平均每場切換 19.6 次目標，而多數大型語言模型僅切換 2 至 6 次。

研究也發現模型偏好與強項存在錯位，例如部分模型最常追求文化勝利，但在外交勝利路徑上反而擁有最高實力評級。

圖源：研究論文有研究透過CivBench基準測試研究，大型語言模型在遊玩《文明帝國5》的長時間戰略推理能力

這兩項《文明帝國》研究成功揭露了 AI 在長期戰略推理上的雙面刃效應。儘管模型具備橫向思考的潛力，但資訊盲區、知行差距與過度執著，仍是重大的技術限制。

未來 AI 若要應用於現實的政務治理，如何從局部優化跨越到全局長期的戰略規劃，將是不可忽視的核心挑戰。

延伸閱讀：
兩大軍事狂人砸39億投資核新創！背後的AI熱商機與核能革命是什麼？

AI重塑現代戰爭！決策速度從數日壓縮至數秒，但倫理爭議怎麼解？

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

報酬
いいね
コメント
リポスト
共有

コメントを追加

コメントなし

人気の話題
もっと見る
#
SKHynixTopsKOSPIByMarketCap
713.07K 人気度
#
EthereumFoundationRestructuresForEfficiency
94.26M 人気度
#
IsraelStrikesIranBTCPlunges
62.52K 人気度
#
WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷
260.24K 人気度
#
TradFiCFDGoldMaster
2.18M 人気度

ピン留め

サイトマップ

AIが『文明6』をプレイして核爆弾を投下！最新実験で明らかになったAIの長期戦略推論の可能性と利点・欠点

当AI玩文明帝国6，竟投下2枚核弹

為何要讓AI玩文明帝國6？

AI操作的葡萄牙，為何做出核武決策

基準測試成形，開發者揭盲點與知行差距

文明5研究同步驗證，AI戰略過度執著

人気の話題

SKHynixTopsKOSPIByMarketCap

EthereumFoundationRestructuresForEfficiency

IsraelStrikesIranBTCPlunges

WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷

TradFiCFDGoldMaster

ピン留め