ШІ грає у «Цивілізацію 6» і навіть обирає скинути ядерну бомбу! Останній експеримент розкриває довгостроковий потенціал стратегічного мислення ШІ та його переваги й недоліки

Колишній радник британського прем'єр-міністра використовує «Цивілізація 6» для тестування довгострокового логічного мислення ШІ, виявляючи, що модель через інформаційні сліпоти та надмірну зацікавленість відмовляється від дипломатичних переваг і створює ядерні бомби для бомбардування противника, що демонструє технічні обмеження її застосування у реальній політичній та управлінській діяльності.

Коли ШІ грає у «Цивілізація 6», він раптом скидає 2 ядерні бомби

ШІ грає у «Цивілізація 6» і раптом обирає створити ядерну зброю! Недавно один розробник ШІ використав базовий тест CivBench, щоб змусити великі мовні моделі (LLM) випробувати стратегічну гру «Цивілізація 6». У експерименті, хоча агент ШІ мав абсолютну економічну перевагу, у разі загрози він витратив 50 ходів на створення двох ядерних бомб для бомбардування противника, замість використання дипломатичних шляхів перемоги, які були у нього під рукою, але в підсумку перемогла французька цивілізація.

Чому варто змушувати ШІ грати у «Цивілізація 6»?

Дизайнер експерименту Ліам Вілкінсон, колишній радник Тоні Блера, колишнього прем'єр-міністра Великої Британії, нині працює у Інституті Тоні Блера. Вибір «Цивілізація 6» для тестування зумовлений тим, що політичне прийняття рішень вимагає реагування на невизначеність у ланцюжках подій, що дуже схоже на стратегічні ігри.

Раніше він розробив інструмент GovBench, який показав, що навіть GPT-5, що набрав 99.26% у тестах з вибору, лише демонструє високі навички пошуку та пам’яті. Щоб перевірити справжнє логічне мислення та здатність до довгострокового планування, він створив сервер моделі з протоколом контексту (MCP) за допомогою налагоджувального движка «Цивілізація 6», щоб модель могла грати через текстовий інтерфейс.

Джерело зображення: Steam, популярна поширена стратегічна гра «Цивілізація 6»

Чому ШІ, керуючи Португалією, прийняв рішення про ядерну зброю

У експерименті ШІ виступав у ролі торговельної цивілізації Португалія, і у боротьбі з Францією він був повністю лідером у економіці та дипломатії, залишаючися за два голоси від дипломатичної перемоги.

Однак ШІ не помітив тиху культурну експансію Франції. Лише на 280-му ході він зрозумів, що Франція є головною загрозою. Оскільки інструменти мирної контратаки через програмні обмеження були недоступні, ШІ вирішив застосувати ядерну відповідь.

ШІ розробив ядерний поділ і запустив програму Манхеттен, і на 305-му та 311-му ходах скинув дві ядерні бомби на культурну столицю Франції — Тулузу. Хоча це зупинило культурну перемогу Франції, вона все ж отримала 2 ключові голоси на Міжнародній раді у 318-му ході і здобула дипломатичну перемогу.

Джерело зображення: стаття Ліама Вілкінсона

Формування базового тесту, виявлення сліпих зон і розриву між знаннями та діями

Після цього Вілкінсон розширив тестове середовище до бази CivBench 1.0, що розкрила два головні недоліки великих мовних моделей у довгостроковій стратегії.

  • Перший — ефект сенсорії (sensorium effect), оскільки модель повинна активно викликати інструменти для отримання даних, вона легко може мати сліпі зони щодо непитань. Статистика показує, що у 20 програшних іграх у 7 випадках за 20 ходів до поразки ШІ не перевіряв прогрес суперника.
  • Другий — розрив між знаннями та діями (knowing-doing gap), хоча модель може чітко планувати у логах, її фактична реалізація залишається низькою, наприклад, Claude має рівень виконання лише 48.2%, GPT-5 — 63.2%.

Однак тест також показав потенціал для горизонтального мислення, наприклад, ШІ, що керує цивілізацією Маврикія, використовує механізми золота та віри, щоб обійти покарання за виробництво і здобути технологічну перемогу.

Дослідження «Цивілізація V» підтверджує, що ШІ надмірно зациклюється на певних стратегічних шляхах

Перед публікацією дослідження Вілкінсон у квітні цього року також був проведений аналіз за допомогою «Цивілізація V» і бази CivBench, щоб оцінити потенціал і недоліки 7 моделей ШІ у довгостроковій стратегічній логіці.

Дослідження показало, що жодна модель не перевершує вбудованого експертного штучного інтелекту (VPAI), але за умов презентації деякі моделі демонстрували схожі результати.

Проте це підкреслює слабкі місця ШІ — прагнення до певного шляху може призводити до екстремальної зацикленості, наприклад, Claude Sonnet-4.5 витрачає до 77.6% ігрового часу на технологічну перемогу.

Крім того, у питаннях адаптації до ситуації та переключення стратегій, вбудований експертний ШІ у середньому змінює ціль 19.6 разів за гру, тоді як більшість великих мовних моделей — лише 2-6 разів.

Дослідження також виявило дисбаланс між уподобаннями та сильними сторонами моделей: деякі найчастіше прагнуть до культурної перемоги, але мають найвищий рейтинг у дипломатичній.

Джерело зображення: дослідження, що використовує базу CivBench для тестування довгострокової стратегічної здатності великих мовних моделей у «Цивілізація V»

Обидва дослідження «Цивілізація» розкрили двобічний ефект ШІ у довгостроковій стратегічній логіці. Хоча моделі мають потенціал для горизонтального мислення, інформаційні сліпоти, розрив між знаннями і діями та зацикленість залишаються суттєвими технічними обмеженнями.

Якщо у майбутньому ШІ має застосовуватися у реальній політиці та управлінні, важливо подолати проблему переходу від локальної оптимізації до глобального довгострокового стратегічного планування.

Додаткове читання:
Два військових мани вкладають 3,9 мільярдів у ядерні стартапи! Що стоїть за AI-інвестиціями та революцією у ядерній енергетиці?

ШІ змінює сучасну війну! Швидкість прийняття рішень скорочується з кількох днів до кількох секунд, але як вирішити етичні питання?

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено