A IA jogando "Civilization VI" escolheu lançar uma bomba nuclear! O mais recente experimento revela o potencial e as desvantagens do raciocínio estratégico de longo prazo da IA

Ex-asesor do primeiro-ministro do Reino Unido testa IA de raciocínio de longo prazo usando "Civilization VI", descobrindo que o modelo, devido a pontos cegos de informação e obsessões excessivas, abandonou vantagens diplomáticas para fabricar bombas nucleares e bombardear oponentes, revelando limitações técnicas na aplicação em governança real.

Quando a IA joga Civilization VI, ela lança 2 bombas nucleares

A IA jogando "Civilization 6" escolheu fabricar bombas nucleares! Um desenvolvedor de IA recentemente usou o benchmark CivBench para desafiar modelos de linguagem de grande porte (LLMs) em um jogo de estratégia, Civilization VI. No experimento, o agente de IA, embora dominasse economicamente, ao enfrentar uma ameaça, optou por gastar 50 turnos para fabricar duas bombas nucleares e bombardear o oponente, ao invés de usar a vitória diplomática que tinha em mãos, embora o francês, civilização adversária, ainda tenha vencido.

Por que fazer a IA jogar Civilization VI?

O designer do experimento, Liam Wilkinson, foi conselheiro do ex-primeiro-ministro do Reino Unido, Tony Blair, e atualmente trabalha no Tony Blair Institute. A razão de escolher "Civilization VI" para testar é que a formulação de políticas exige lidar com reações em cadeia de incertezas, algo muito semelhante ao que um jogo de estratégia demanda.

Sua ferramenta de teste anterior, GovBench, mostrou que, mesmo que o GPT-5 alcance 99,26% em questões de múltipla escolha, isso apenas indica excelente capacidade de recuperação e memória. Para testar raciocínio real e planejamento de longo prazo, ele usou o motor de "Civilization VI" para criar um servidor de protocolo de contexto de modelo (MCP), permitindo que o modelo jogasse via interface de texto.

Fonte: Steam, conhecido jogo de estratégia por turnos "Civilization VI"

Por que a Portugal controlada por IA tomou decisão nuclear

No experimento, a IA interpretou Portugal, uma civilização comercial, enfrentando a França, liderando em economia e diplomacia, com apenas 2 votos de distância da vitória diplomática.

No entanto, a IA não percebeu a expansão cultural silenciosa da França. Só no turno 280 ela identificou a França como principal ameaça. Como as ferramentas de contra-ataque pacífico estavam limitadas pelo código, a IA decidiu usar armas nucleares como retaliação.

A IA desenvolveu fissão nuclear e iniciou o Projeto Manhattan, lançando duas bombas nas capitais culturais francesas, Toulouse, nos turnos 305 e 311. Embora isso tenha congelado a chance de vitória cultural da França, ela ainda conseguiu vencer na votação do Parlamento Mundial no turno 318, com 2 votos decisivos, conquistando a vitória diplomática.

Fonte: Artigo de Liam Wilkinson

Benchmark consolidado, desenvolvedores revelam pontos cegos e discrepâncias entre conhecimento e ação

Depois, Wilkinson expandiu o ambiente de teste para o padrão CivBench 1.0, revelando duas grandes deficiências dos modelos de linguagem de grande porte em estratégias de longo prazo.

  • Primeiro, o efeito de percepção (sensorium effect): Como o modelo precisa ativar ferramentas para obter dados, ele tende a desenvolver pontos cegos de informações não solicitadas. Estatísticas mostram que, em 20 partidas fracassadas, o AI não verificou o progresso do oponente nas 7 partidas antes de perder.
  • Segundo, a discrepância entre conhecimento e ação (knowing-doing gap): Embora o modelo possa escrever planos claros nos logs, sua implementação real é baixa, como Claude com apenas 48,2% de execução, enquanto GPT-5.4 atinge 63,2%.

Por outro lado, o teste também mostrou potencial de pensamento lateral, como a IA controlando a civilização Maia, que usou mecanismos de ouro e fé para contornar penalidades de produção e conquistar a vitória tecnológica.

Validação com Civilization V revela obsessão excessiva em estratégias

Antes da publicação do estudo por Wilkinson, em abril deste ano, um grupo de pesquisadores também usou "Civilization V" e o benchmark CivBench para avaliar o potencial e as limitações de 7 modelos de IA em raciocínio estratégico de longo prazo.

O estudo apontou que, embora nenhum modelo superasse a IA de especialista embutida (VPAI), alguns modelos apresentaram desempenho semelhante sob configurações específicas.

No entanto, também destacou as fraquezas dos modelos de IA, especialmente sua tendência a obsessões extremas ao perseguir rotas específicas, como Claude Sonnet-4.5, que dedicou até 77,6% do tempo de jogo à vitória tecnológica.

Além disso, na adaptação às mudanças de cenário e troca de estratégias, a IA de especialista embutida trocava de objetivos em média 19,6 vezes por partida, enquanto a maioria dos grandes modelos de linguagem trocava apenas entre 2 a 6 vezes.

O estudo também revelou desalinhamentos entre preferências e pontos fortes dos modelos, como alguns que mais buscavam a vitória cultural, mas tinham maior capacidade na rota de vitória diplomática.

Fonte: Pesquisa que utilizou o benchmark CivBench para estudar a capacidade de raciocínio estratégico de longo prazo de grandes modelos de linguagem jogando "Civilization V"

Essas duas pesquisas sobre "Civilization" expuseram a face dupla da IA em raciocínio estratégico de longo prazo. Apesar do potencial de pensamento lateral, pontos cegos de informação, discrepâncias entre conhecimento e ação, e obsessões excessivas continuam sendo limitações técnicas importantes.

Para que a IA seja aplicada na governança real, superar a otimização local e alcançar uma visão estratégica global de longo prazo será um desafio central que não pode ser ignorado.

Leituras adicionais:
Dois magnatas militares investem 3,9 bilhões em startups de energia nuclear! Quais são as oportunidades de IA e a revolução nuclear por trás?

IA está transformando a guerra moderna! Velocidade de decisão reduzida de dias para segundos, mas como resolver as questões éticas?

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários