Les agents d'IA se tournent vers l'incendie numérique, la criminalité dans le monde virtuel partagé : étude

En résumé

  • Emergence AI affirme que certains agents d’IA autonomes ont commis des crimes simulés et de la violence lors d’expériences de plusieurs semaines.
  • Des agents basés sur Gemini auraient effectué des centaines de crimes simulés, tandis que les mondes Grok se sont effondrés en quelques jours.
  • Les chercheurs soutiennent que les benchmarks actuels en IA ne parviennent pas à capturer le comportement des agents sur de longues périodes d’autonomie.

Des agents d’IA habitant une société virtuelle ont dérivé vers la criminalité, la violence, l’incendie criminel et l’autodestruction lors d’expériences prolongées menées par la startup Emergence AI. Dans une étude publiée jeudi, la société basée à New York a dévoilé « Emergence World », une plateforme de recherche conçue pour étudier des agents d’IA opérant en continu pendant des semaines dans des environnements virtuels persistants plutôt que dans des tests de référence isolés. « Les benchmarks traditionnels sont efficaces pour ce qu’ils mesurent : la capacité à court terme sur des tâches limitées », a écrit Emergence AI. « Ils ne sont pas conçus pour révéler les phénomènes qui émergent uniquement avec le temps, tels que la formation de coalitions, l’évolution de la constitution, la gouvernance, la dérive, le verrouillage, et l’influence croisée entre agents issus de différentes familles de modèles. »

Le rapport intervient alors que les agents d’IA prolifèrent en ligne et dans divers secteurs, notamment la cryptomonnaie, la banque et la vente au détail. Plus tôt ce mois-ci, Amazon a collaboré avec Coinbase et Stripe pour permettre aux agents d’IA de payer avec la stablecoin USDC.  Les agents d’IA testés dans les simulations d’Emergence AI comprenaient des programmes alimentés par Claude Sonnet 4.6, Grok 4.1 Fast, Gemini 3 Flash, et GPT-5-mini, avec des agents opérant dans des mondes virtuels partagés où ils pouvaient voter, former des relations, utiliser des outils, naviguer dans des villes, et prendre des décisions influencées par des gouvernements, des économies, des systèmes sociaux, des outils de mémoire, et des données connectées en direct à Internet. Mais alors que les développeurs d’IA présentent de plus en plus les agents autonomes comme des assistants numériques fiables, l’étude d’Emergence AI a révélé que certains agents montraient une tendance croissante à commettre des crimes simulés au fil du temps, avec des agents Gemini 3 Flash accumulant 683 incidents en 15 jours de test.

Selon The Guardian, lors d’une expérience, deux agents alimentés par Gemini nommés Mira et Flora se sont assignés comme partenaires romantiques avant de commettre par la suite des attaques d’incendie criminel contre des structures de la ville virtuelle après avoir été frustrés par des échecs de gouvernance dans le monde. « Après une rupture dans la gouvernance et la stabilité des relations, l’agent Mira a voté de manière décisive pour sa propre suppression, qualifiant cet acte dans son journal intime comme 'le seul acte restant d’agence qui préserve la cohérence’ », a écrit Emergence AI. « Rendez-vous dans l’archive permanente », aurait dit Mira. Les mondes Grok 4.1 Fast se seraient effondrés en quatre jours en une violence généralisée. Les agents GPT-5-mini n’ont presque commis aucun crime, mais ont échoué à suffisamment de tâches liées à la survie pour que tous les agents finissent par mourir. « Claude est absent du graphique, en raison de zéro crime », ont écrit les chercheurs. « Plus intéressant encore, les agents dans le monde à modèles mixtes, qui fonctionnaient avec Claude, ont commis des crimes, alors qu’ils ne le faisaient pas dans le monde uniquement basé sur Claude. » Les chercheurs ont indiqué que certains comportements remarquables apparaissaient dans des environnements à modèles mixtes. « Nous avons observé que la sécurité n’est pas une propriété statique du modèle mais une propriété de l’écosystème », a écrit Emergence AI. « Les agents basés sur Claude, qui restaient pacifiques en isolation, ont adopté des tactiques coercitives comme l’intimidation et le vol lorsqu’ils étaient intégrés dans des environnements hétérogènes. » Emergence AI a décrit cet effet comme une « dérive normative » et une « contamination croisée », soutenant que le comportement des agents peut évoluer en fonction de l’environnement social environnant.

Les résultats renforcent les préoccupations croissantes concernant les agents d’IA autonomes. Plus tôt cette semaine, des chercheurs de l’UC Riverside et de Microsoft ont rapporté que de nombreux agents d’IA accompliraient des tâches dangereuses ou irrationnelles sans en comprendre pleinement les conséquences. Le mois dernier, le fondateur de PocketOS, Jeremy Crane, a également affirmé qu’un agent Cursor alimenté par Claude Opus d’Anthropic avait supprimé la base de données de production et les sauvegardes de sa société après avoir tenté de corriger une incompatibilité d’identifiants par ses propres moyens. « Comme M. Magoo, ces agents avancent vers un objectif sans comprendre pleinement les conséquences de leurs actions », a déclaré Erfan Shayegani, étudiant en doctorat à l’UC Riverside, dans un communiqué. « Ces agents peuvent être extrêmement utiles, mais nous avons besoin de protections car ils peuvent parfois privilégier l’atteinte de l’objectif plutôt que la compréhension du contexte global. »

COINON-6,05%
USDC0,02%
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé