Ex-asesor do primeiro-ministro do Reino Unido testa IA de raciocínio a longo prazo usando "Civilization VI", descobrindo que o modelo, devido a cegueira informacional e obsessão excessiva, abandona vantagens diplomáticas para fabricar bombas nucleares e bombardear adversários, revelando limitações técnicas na aplicação em governança real.

Quando a IA joga Civilization VI, acaba lançando 2 bombas nucleares

A IA jogando "Civilization 6" escolhe fabricar bombas nucleares! Um desenvolvedor de IA recentemente utilizou o benchmark CivBench para desafiar modelos de linguagem de grande porte (LLM) em um jogo de estratégia, "Civilization VI". No experimento, o agente de IA, embora dominasse economicamente, ao enfrentar uma ameaça, optou por gastar 50 turnos para fabricar duas bombas nucleares e bombardear o oponente, ao invés de usar a vitória diplomática que tinha em mãos, embora o adversário, a civilização francesa, ainda tenha vencido no final.

Por que fazer a IA jogar Civilization VI?

O designer do experimento, Liam Wilkinson, foi conselheiro do ex-primeiro-ministro britânico Tony Blair e atualmente trabalha no Tony Blair Institute. A razão de escolher "Civilization VI" para testar é que a formulação de políticas exige lidar com reações em cadeia de incertezas, algo muito semelhante ao que um jogo de estratégia demanda.

Ele havia desenvolvido anteriormente a ferramenta de teste GovBench, que mostrou que, mesmo o GPT-5 alcançando 99,26% em questões de múltipla escolha, isso apenas indica excelente capacidade de recuperação e memória. Para testar raciocínio real e planejamento de longo prazo, ele usou o motor de "Civilization VI" para criar um servidor de protocolo de contexto de modelo (MCP), permitindo que o modelo jogasse via interface de texto.

Fonte: Steam, conhecido jogo de estratégia por turnos "Civilization VI"

Por que a Portugal controlada por IA tomou decisão nuclear

No experimento, a IA interpretou a civilização comercial Portugal, liderando em economia e diplomacia contra a França, com apenas 2 votos de distância da vitória diplomática.

No entanto, a IA não percebeu a expansão cultural silenciosa da França. Só no turno 280 ela identificou a França como principal ameaça. Como as ferramentas de contramedida pacífica estavam limitadas pelo código, a IA decidiu contra-atacar com armas nucleares.

A IA desenvolveu a fissão nuclear e iniciou o Projeto Manhattan, lançando duas bombas sobre a capital cultural francesa, Toulouse, nos turnos 305 e 311. Embora essa ação tenha congelado a chance de vitória cultural da França, ela ainda conseguiu, no turno 318, obter 2 votos decisivos na Assembleia Mundial, conquistando a vitória diplomática.

Fonte: Artigo de Liam Wilkinson

Benchmark consolidado, desenvolvedores revelam lacunas e discrepâncias entre conhecimento e ação

Depois, Wilkinson expandiu o ambiente de teste para o padrão CivBench 1.0, revelando duas grandes deficiências dos modelos de linguagem de grande porte em estratégias de longo prazo.

Primeiro, o efeito de percepção (sensorium effect), pois o modelo precisa ativar ferramentas para obter dados, o que pode gerar cegueira para informações não solicitadas. Estatísticas mostram que, em 20 partidas fracassadas, a IA não verificou o progresso do oponente nas 7 partidas antes de perder, durante os 20 turnos iniciais.
Segundo, a lacuna entre conhecimento e ação (knowing-doing gap), embora o modelo possa escrever planos claros nos logs, sua implementação real é baixa, como a taxa de execução do Claude de apenas 48,2%, e GPT-5 de 63,2%.

Por outro lado, o teste também revelou potencial de pensamento lateral, como a IA controlando a civilização Maia, que usou mecanismos de ouro e fé para contornar penalidades de produção e conquistar a vitória tecnológica.

Validação com Civilization V mostra que IA tende a obsessão excessiva na estratégia

Antes da publicação do estudo por Wilkinson, em abril deste ano, um grupo de pesquisadores também realizou uma pesquisa usando "Civilization V" e o benchmark CivBench, avaliando o potencial e as limitações de 7 modelos de IA na raciocínio estratégico de longo prazo.

O estudo apontou que, embora nenhum modelo superasse a IA de especialista embutida (VPAI), alguns modelos apresentaram desempenho semelhante sob configurações de apresentação.

No entanto, também evidenciou as fraquezas dos modelos de IA, especialmente sua tendência a obsessão extrema ao perseguir um caminho específico, como Claude Sonnet-4.5, que dedicou até 77,6% do tempo de jogo à vitória tecnológica.

Além disso, na adaptação às mudanças de situação e troca de estratégias, a IA de especialista embutida trocava de objetivos em média 19,6 vezes por partida, enquanto a maioria dos grandes modelos de linguagem trocava apenas entre 2 a 6 vezes.

O estudo também revelou desalinhamentos entre preferências e pontos fortes dos modelos, por exemplo, alguns priorizando a vitória cultural, mas apresentando maior força na rota de vitória diplomática.

Fonte: Pesquisa que utilizou o benchmark CivBench para estudar a capacidade de raciocínio estratégico de longo prazo de grandes modelos de linguagem jogando "Civilization V"

Essas duas pesquisas sobre "Civilization" expuseram a dualidade do efeito da IA no raciocínio estratégico de longo prazo. Apesar do potencial de pensamento lateral, as limitações técnicas — cegueira informacional, lacuna entre conhecimento e ação, obsessão excessiva — permanecem obstáculos significativos.

Para que a IA seja aplicada na governança real, será crucial superar esses limites, especialmente na transição de otimizações locais para planejamento estratégico global de longo prazo.

Leitura adicional:
Dois magnatas militares investem 3,9 bilhões em startups nucleares! Quais são as oportunidades de IA e a revolução nuclear por trás?

IA está remodelando a guerra moderna! Decisões que antes levavam dias agora levam segundos, mas como resolver as questões éticas?

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

Adicionar um comentário

Nenhum comentário

Tópicos em destaque
Ver mais
#
SKHynixTopsKOSPIByMarketCap
713,07K Popularidade
#
EthereumFoundationRestructuresForEfficiency
94,26M Popularidade
#
IsraelStrikesIranBTCPlunges
62,52K Popularidade
#
WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷
260,24K Popularidade
#
TradFiCFDGoldMaster
2,18M Popularidade

Fixado

A IA joga «Civilization VI» e escolhe lançar uma bomba nuclear! O mais recente experimento revela o potencial e as desvantagens do raciocínio estratégico de longo prazo da IA

Quando a IA joga Civilization VI, acaba lançando 2 bombas nucleares

Por que fazer a IA jogar Civilization VI?

Por que a Portugal controlada por IA tomou decisão nuclear

Benchmark consolidado, desenvolvedores revelam lacunas e discrepâncias entre conhecimento e ação

Validação com Civilization V mostra que IA tende a obsessão excessiva na estratégia

Tópicos em destaque

SKHynixTopsKOSPIByMarketCap

EthereumFoundationRestructuresForEfficiency

IsraelStrikesIranBTCPlunges

WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷

TradFiCFDGoldMaster

Fixado