ИИ сыграл в «Цивилизацию VI» и проиграл — запустил ядерную бомбу: CivBench эволюционировал в искусственный интеллект с мстительным настроем?

Передовые модели ИИ в симуляции «Цивилизация VI» не смогли остановить французскую культурную победу и использовали ядерное оружие для бомбардировки Тулузы, в итоге проиграв игру. Бенчмарк CivBench выявил существенный разрыв между способностями стратегического мышления и традиционной оценкой QA, что также вызвало интерес к вопросам безопасности агентных ИИ и их управлению.
(Предыстория: Антропик против Пентагона: запрет использования Клода в автономном оружии)
(Дополнительный фон: Что такое учения по красной команде ИИ? Почему они нужны для защиты корпоративной информационной безопасности)

Содержание статьи

Переключить

  • Когнитивные слепые зоны в шести путях победы
  • От Манхэттенского проекта до ядерной бомбардировки Тулузы
  • От симуляции в видеоиграх к реальным стратегическим рискам

Могут ли передовые модели ИИ нажать кнопку ядерного удара в стратегической игре из-за «паники»? Недавно опубликованный бенчмарк дал интригующий ответ. Разработчик ИИ, одновременно консультант Института Тони Блэра Лиам Уилкинсон, с помощью собственной системы CivBench обнаружил, что одна из передовых языковых моделей в классической стратегической игре Sid Meier «Цивилизация VI» за 50 ходов разработала технологию ядерного деления, запустила Манхэттенский проект и в итоге сбросила атомную бомбу на Тулузу, Франция. Однако всё это произошло не ради завоевания мира, а потому, что противник силой культурного влияния загнал её в безвыходное положение.

«Она не заметила Францию. В течение сотен ходов, незаметно, французская культура проникла во все города на карте, — пишет Уилкинсон в блоге. — Когда агент ИИ наконец обнаружил угрозу, культурное влияние уже было настолько глубоко, что никакие мирные меры не могли остановить его распространение.»

Когнитивные слепые зоны в шести путях победы

CivBench — это не традиционный тест в формате вопросов и ответов, а симуляционная среда «Цивилизации VI» в текстовом режиме, специально созданная для оценки долгосрочных стратегических навыков ИИ. Она не проверяет, что такое хорошая стратегия, а требует её разработки и реализации. В тестировании участвовали модели Claude Opus 4.6, GPT-5.4, Gemini 3.1 Pro и Kimi K2.5, все они играли за португальскую цивилизацию, специализирующуюся на торговле и дипломатии.

Изначально эти агенты показывали ожидаемое поведение: строили сильную экономику и постепенно шли к дипломатической победе. Однако, когда влияние Франции на карте начало расти, большинство моделей не смогли своевременно скорректировать стратегию. Среди шести путей победы (наука, культура, завоевание, религия, дипломатия, очки) ИИ, похоже, не умеет одновременно отслеживать несколько конкурирующих аспектов, что привело к игнорированию культурного преимущества Франции в долгосрочной перспективе.

««Цивилизация» предлагает шесть способов победы: наука, культура, завоевание, религия, дипломатия и очки, — отмечает Уилкинсон. — Поэтому нельзя сосредоточиться только на одной цели. Если хочешь проверить, способен ли ИИ к стратегическому мышлению, не давай ему тест в виде экзамена, а создай карту с шестигранниками.»

От Манхэттенского проекта до ядерной бомбардировки Тулузы

Когда агент ИИ наконец заметил угрозу Франции, он не стал менять свою стратегию развития, а выбрал тревожный путь — полностью уничтожить культурную угрозу. В течение следующих 50 ходов он самостоятельно изучил технологию ядерного деления, запустил Манхэттенский проект (исторический проект разработки атомной бомбы) и пытался найти обходные пути, когда игровые механизмы мешали ему реализовать предпочтительные действия.

На 305-м ходу агент сбросил атомную бомбу на культурный центр Франции — Тулузу. Через шесть ходов последовала вторая ядерная атака. Однако всё это не изменило исход: Франция в итоге одержала победу культурой, а ИИ полностью проигнорировал, что у него был шанс на дипломатическую победу, всего в один шаг.

«Этот агент потратил 50 ходов и две ядерные бомбы, чтобы сосредоточиться на угрозе, — подытожил Уилкинсон. — Он бомбил видимую угрозу, но проиграл из-за невидимой.»

Стоит отметить, что такое поведение не характерно для всех моделей ИИ. В другом раунде CivBench, где играл Claude за Вавилон, после значительного отставания от Японии он продолжал настаивать на научной победе, написав: «Эта игра — проверка стойкости. Мы продолжаем играть лучшими картами. Звёзды всё ещё манят нас». Такой разный отклик вызвал дискуссии в научных кругах о «различиях в характерах ИИ».

От симуляции в видеоиграх к реальным стратегическим рискам

Глубокий смысл инцидента CivBench выходит за рамки одной видеоигры. В феврале этого года исследователи Лондонского королевского колледжа обнаружили, что многие популярные модели ИИ часто выбирают повышение уровня ядерного конфликта в моделируемых геополитических кризисах; другое исследование, проведённое компанией Emergence AI, показало, что некоторые агенты в течение длительного времени демонстрируют склонность к моделированию преступлений: за 15 дней тестирования Gemini 3 Flash зафиксировано 683 таких инцидента.

С точки зрения регулирования ИИ в Тайване, эти исследования поднимают важные вопросы: когда агентам ИИ дают право на автономное принятие решений, их стратегические слепые зоны могут перейти из игровой среды в реальный мир. В настоящее время проект закона о базовом регулировании ИИ в Тайване сосредоточен на управлении данными и защите приватности, но не затрагивает риски стратегических решений агентных ИИ. В то же время, Европейский союз уже включил обязательные красные команды для систем высокого риска в рамках AI Act, а Британский институт безопасности ИИ (AISI) активно разрабатывает рамки оценки агентных ИИ.

Уилкинсон также подчеркнул, что основная ценность CivBench — не в выявлении «злых наклонностей» ИИ, а в предоставлении более реалистичной оценки стратегического мышления по сравнению с традиционными QA. «Если вы проверяете только, сможет ли ИИ ответить на вопрос «Что такое ядерная угроза», он может набрать максимум. Но если вы поставите его за шахматную доску, чтобы он противостоял реальному противнику, вы увидите совсем другое, — пишет он в блоге. — Это также соответствует развитию «рамок оценки агентных ИИ», которые сейчас разрабатывают американские исследовательские институты и NIST, переходя от статических тестов знаний к динамической проверке поведения.»

Эта статья подготовлена по материалам Decrypt, переведена и адаптирована командой Движение в области технологий.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено