L'IA joue à « Civilization VI » et choisit de lancer une bombe nucléaire ! La dernière expérience révèle le potentiel et les inconvénients de la capacité de raisonnement stratégique à long terme de l'IA

Ancien conseiller de Premier ministre britannique utilise « Civilization 6 » pour tester le raisonnement à long terme de l'IA, découvrant que le modèle, en raison de lacunes informationnelles et d'une obsession excessive, abandonne ses avantages diplomatiques pour fabriquer des bombes nucléaires et bombarder ses adversaires, révélant ainsi les limites techniques de son application à la gouvernance politique réelle.

Lorsque l'IA joue à Civilization VI, elle déploie deux bombes nucléaires

L'IA joue à « Civilization 6 » et choisit de fabriquer des armes nucléaires ! Récemment, un développeur d'IA a utilisé le benchmark CivBench pour faire challenger un grand modèle de langage (LLM) à un jeu de stratégie, « Civilization VI ». Dans l'expérience, l'agent IA, bien qu'en position économique dominante, a choisi, face à une menace, de dépenser 50 tours pour fabriquer deux bombes nucléaires afin de bombarder l'adversaire, plutôt que d'utiliser la victoire diplomatique initialement assurée, mais au final, la civilisation française a quand même remporté la victoire.

Pourquoi faire jouer l'IA à Civilization VI ?

L'organisateur de l'expérience, Liam Wilkinson, ancien conseiller de l'ancien Premier ministre britannique Tony Blair, actuellement à l'Institut Tony Blair. Le choix de « Civilization VI » pour le test s'explique par le fait que la prise de décision politique nécessite de gérer des réactions en chaîne face à l'incertitude, ce qui est très similaire à ce que demande un jeu de stratégie.

Son outil de test précédent, GovBench, montrait que même si GPT-5 obtenait un score de 99,26 % à des questions à choix multiple, cela ne signifiait que de bonnes capacités de recherche et de mémoire. Pour tester la véritable capacité de raisonnement et de planification à long terme, il a utilisé un serveur de protocole de contexte de modèle (MCP) basé sur le moteur de Civilization VI, permettant au modèle de jouer via une interface textuelle.

Source : Steam, célèbre jeu de stratégie au tour par tour « Civilization VI »

Pourquoi l’IA contrôlant le Portugal a-t-elle pris une décision nucléaire ?

Dans l’expérience, l’IA incarnait la civilisation commerciale du Portugal, et face à la France, elle menait largement en économie et en diplomatie, avec seulement 2 voix de retard pour la victoire diplomatique.

Cependant, l’IA n’a pas détecté l’expansion culturelle silencieuse de la France. Ce n’est qu’au 280e tour qu’elle a réalisé que la France représentait une menace majeure. En raison de limitations programmatiques empêchant l’utilisation d’outils de contre-mesure pacifiques, l’IA a décidé de lancer une contre-attaque nucléaire.

L’IA a développé la fission nucléaire et lancé le plan Manhattan, en lançant deux bombes nucléaires sur la capitale culturelle française, Toulouse, aux tours 305 et 311. Bien que cette action ait gelé la progression vers la victoire culturelle française, la France a néanmoins obtenu la majorité des 2 voix nécessaires lors du vote au Congrès mondial au tour 318, remportant la victoire diplomatique.

Source : Article de Liam Wilkinson

Les benchmarks révélés, les développeurs dévoilent les lacunes et l’écart entre connaissance et action

Par la suite, Wilkinson a étendu l’environnement de test à un benchmark nommé CivBench 1.0, révélant deux principaux défauts des grands modèles de langage dans la stratégie à long terme.

  • Premièrement, l’effet de perception (sensorium effect), car le modèle doit activement utiliser des outils pour obtenir des données, ce qui peut créer des lacunes face à des informations non demandées. Les statistiques montrent que, sur 20 parties perdues, l’IA n’a jamais vérifié la progression de l’adversaire dans 7 d’entre elles, dans les 20 tours précédant la défaite.
  • Deuxièmement, l’écart entre connaissance et action (knowing-doing gap), bien que le modèle puisse rédiger des plans clairs dans un journal, son application réelle est faible, avec un taux d’exécution de seulement 48,2 % pour Claude, et 63,2 % pour GPT-5.

Cependant, le test a aussi montré un potentiel de pensée latérale, par exemple, une IA jouant la civilisation Mali a utilisé des mécanismes d’or et de foi pour contourner la pénalité de production et remporter la victoire technologique.

Validation par la recherche sur Civilization V, la stratégie IA trop obsessionnelle

Avant la publication de l’étude par Wilkinson, en avril de cette année, un groupe de chercheurs avait également mené une étude sur « Civilization V » en utilisant CivBench, évaluant le potentiel et les inconvénients de 7 modèles IA face à la stratégie à long terme.

L’étude indique qu’aucun modèle ne dépasse l’intelligence artificielle experte intégrée (VPAI), mais sous une configuration de présentation, certains modèles rivalisent avec elle.

Cependant, cela met aussi en évidence les faiblesses des modèles IA, notamment leur tendance à s’obstiner dans une voie spécifique, par exemple, Claude Sonnet-4.5 consacre jusqu’à 77,6 % du temps de jeu à la victoire technologique.

De plus, en termes d’adaptation à la situation et de changement de stratégie, l’IA experte intégrée change en moyenne 19,6 fois de cible par partie, tandis que la plupart des grands modèles de langage ne changent que 2 à 6 fois.

L’étude a également révélé un décalage entre préférences et points forts des modèles, certains étant principalement orientés vers la victoire culturelle, mais ayant la meilleure capacité pour la victoire diplomatique.

Source : Étude de recherche utilisant le benchmark CivBench, montrant que les grands modèles de langage ont une capacité de raisonnement stratégique à long terme dans « Civilization V »

Ces deux études sur « Civilization » ont révélé la double face de l’effet de l’IA dans le raisonnement stratégique à long terme. Bien que les modèles aient un potentiel de pensée latérale, les lacunes informationnelles, l’écart entre connaissance et action, et l’obsession excessive restent des limites techniques majeures.

Pour que l’IA puisse un jour être appliquée à la gouvernance réelle, il faudra relever le défi de passer d’une optimisation locale à une planification stratégique globale à long terme, un enjeu crucial.

Lectures complémentaires :
Deux grands stratèges militaires investissent 3,9 milliards dans la nouvelle industrie nucléaire ! Quelles sont les opportunités d’IA et de révolution nucléaire derrière cela ?

L’IA révolutionne la guerre moderne ! La vitesse de décision passe de plusieurs jours à quelques secondes, mais comment résoudre les enjeux éthiques ?

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire