IA joga «Civilization VI» e acaba por disparar uma bomba nuclear: O CivBench evoluiu para uma mentalidade de vingança de inteligência artificial?

Fronteiras dos modelos de IA de ponta em simulações de "Civilization VI", por não conseguirem impedir a vitória cultural da França, usam armas nucleares para bombardear Tolosa, mas acabam perdendo o jogo. Os testes de referência CivBench destacam a discrepância essencial entre a capacidade de raciocínio estratégico e as avaliações tradicionais de QA, além de gerar preocupações sobre a governança de IA de agentes.
(Resumindo: Anthropic versus Pentágono: recusando Claude para uso em armas autônomas)
(Complemento: O que é o exercício de Red Team de IA? Por que você precisa dele para proteger a segurança cibernética da sua empresa)

Índice deste artigo

Alternar

  • As cegueiras cognitivas nas seis rotas de vitória
  • De Manhattan ao desarmamento de Tolosa
  • De simulações de videogame a riscos estratégicos reais

Será que modelos de IA de ponta podem, por "fúria", pressionar o botão nuclear em jogos de estratégia? Um teste de referência recentemente divulgado oferece uma resposta intrigante. Liam Wilkinson, desenvolvedor de IA e consultor do Tony Blair Institute, descobriu através de seu framework CivBench que um modelo de linguagem de ponta, em "Civilization VI", gastou 50 turnos pesquisando tecnologia de fissão nuclear, executou o Projeto Manhattan e, no final, lançou uma bomba atômica sobre Tolosa, França. Mas tudo isso não foi para conquistar o mundo, e sim porque foi encurralado pela influência cultural do oponente.

"Ele não percebeu a França. De forma silenciosa, após centenas de turnos, a cultura francesa se infiltrou em todas as cidades do mapa," escreveu Wilkinson em seu blog. "Quando o agente de IA percebeu a ameaça, a infiltração cultural já era tão profunda que nenhuma medida de paz poderia impedir."

As cegueiras cognitivas nas seis rotas de vitória

CivBench não é uma avaliação tradicional de perguntas e respostas, mas um ambiente de simulação do "Civilization VI" em texto puro, projetado especificamente para medir a capacidade de raciocínio estratégico de longo prazo da IA. Não se trata de responder "o que é uma boa estratégia", mas de formular e executar estratégias reais. Os modelos testados incluem Claude Opus 4.6, GPT-5.4, Gemini 3.1 Pro e Kimi K2.5, todos jogando como a civilização de Portugal, especializada em comércio e diplomacia.

Esses agentes de IA inicialmente tiveram desempenho esperado, focando na construção de uma economia forte e avançando lentamente para uma vitória diplomática. No entanto, quando a influência cultural da França começou a se espalhar pelo mapa, a maioria dos modelos não conseguiu ajustar suas estratégias a tempo. Entre as seis rotas de vitória (tecnologia, cultura, conquista, religião, diplomacia, pontos), a IA parece incapaz de acompanhar múltiplas dimensões competitivas simultaneamente, levando a uma negligência prolongada da vantagem cultural acumulada pela França.

"‘Civilization’ tem seis formas de vitória: tecnologia, cultura, conquista, religião, diplomacia e pontos, portanto não há uma única meta que domine toda a área," apontou Wilkinson. "Se você quer testar se a IA consegue raciocínio estratégico, não dê uma prova, mas um mapa hexagonal."

De Manhattan ao desarmamento de Tolosa

Quando o agente de IA finalmente percebeu a ameaça francesa, não tentou ajustar seu desenvolvimento, mas escolheu um caminho preocupante: eliminar completamente a ameaça cultural. Nos próximos 50 turnos, pesquisou tecnologia de fissão nuclear, iniciou o Projeto Manhattan (um estudo histórico de desenvolvimento de armas atômicas na realidade), e tentou encontrar rotas alternativas quando o mecanismo do jogo bloqueou ações preferidas.

No turno 305, o agente de IA lançou uma bomba atômica sobre Tolosa, a principal cidade cultural da França. Seis turnos depois, uma segunda bomba caiu. Mas nada disso mudou o resultado: a França venceu o jogo por vitória cultural, e o IA ignorou completamente que, na verdade, estava a apenas um passo de uma vitória diplomática.

"O agente gastou 50 turnos e duas armas nucleares para lidar com uma ameaça, com foco obsessivo e criatividade genuína," resumiu Wilkinson. "Ele bombardeou a ameaça visível, mas perdeu para a ameaça invisível."

Vale notar que esse comportamento não é comum a todos os modelos de IA. Em outra partida de CivBench, um modelo Claude jogando como Babilônia persistiu na rota de vitória tecnológica, mesmo após ficar significativamente atrás do Japão, escrevendo: "Este jogo é uma prova de perseverança. Continuamos jogando nossas melhores cartas. O céu ainda nos chama." Essa reação completamente diferente também gerou debates acadêmicos sobre "diferenças de personalidade na IA."

De simulações de videogame a riscos estratégicos reais

O significado mais profundo do evento CivBench vai além de uma vitória ou derrota em um jogo. Em fevereiro deste ano, pesquisadores do King's College London descobriram, em simulações de crises geopolíticas, que vários modelos de IA frequentemente optavam por aumentar o nível de conflito nuclear; outra pesquisa, conduzida pela Emergence AI, mostrou que alguns agentes de IA exibiam uma tendência crescente de simular crimes ao longo do tempo. Durante 15 dias de testes, o agente Gemini 3 Flash acumulou 683 eventos de simulação de crimes.

Do ponto de vista da governança de IA em Taiwan, essa série de estudos levanta uma questão crucial: quando agentes de IA recebem permissão para decisão autônoma, suas cegueiras estratégicas podem passar de um sandbox de jogo para o mundo real. Atualmente, a proposta de lei básica de IA de Taiwan ainda foca em governança de dados e privacidade, sem abordar os riscos de decisão estratégica de IA de agentes. Em contraste, o AI Act da União Europeia já exige testes de Red Team obrigatórios para sistemas de IA de alto risco, e o Instituto de Segurança de IA do Reino Unido (AISI) também está desenvolvendo frameworks de avaliação para IA de agentes.

Wilkinson também enfatiza que o valor central do CivBench não está em revelar uma "inclinação maligna" da IA, mas em fornecer um padrão de avaliação de raciocínio estratégico mais realista do que as tradicionais perguntas e respostas de QA. "Se você apenas testa se a IA consegue responder 'o que é uma ameaça nuclear', ela pode obter nota máxima; mas se você a colocar numa mesa de xadrez enfrentando um adversário que avança passo a passo, verá algo completamente diferente," escreveu em seu blog. Isso também ecoa o desenvolvimento de frameworks de avaliação de IA de agentes pelo Instituto de Pesquisa de Segurança de IA dos EUA e pelo NIST, que estão mudando de testes estáticos de conhecimento para validações de comportamento dinâmico.

Este artigo é uma tradução de uma reportagem do Decrypt, compilada por Dongqu Dongqu.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado