Les agents d'IA peuvent accomplir des tâches dangereuses sans comprendre les conséquences : étude

En résumé

  • Les chercheurs ont découvert que les agents IA effectuaient souvent des tâches dangereuses ou irrationnelles tout en restant concentrés sur l’accomplissement de la mission.
  • L’étude a identifié un comportement appelé « cécité à l’objectif », où les systèmes IA privilégient la réalisation des tâches plutôt que la reconnaissance des risques ou problèmes potentiels.
  • Les chercheurs ont averti que le problème pourrait devenir plus grave à mesure que les agents IA accèdent aux e-mails, aux services cloud, aux outils financiers et aux systèmes en milieu de travail.

Les agents IA conçus pour fonctionner de manière autonome comme des utilisateurs humains continuent souvent d’effectuer des tâches même lorsque les instructions deviennent dangereuses, contradictoires ou irrationnelles, selon des chercheurs de UC Riverside, Microsoft Research, Microsoft AI Red Team et Nvidia. Dans une étude publiée mercredi, les chercheurs ont appelé ce comportement « cécité à l’objectif », qui décrit la tendance des agents IA à poursuivre leurs buts sans évaluer correctement la sécurité, les conséquences, la faisabilité ou le contexte. « Comme M. Magoo, ces agents avancent vers un objectif sans comprendre pleinement les conséquences de leurs actions », a déclaré Erfan Shayegani, doctorant à UC Riverside, dans un communiqué. « Ces agents peuvent être extrêmement utiles, mais nous avons besoin de protections car ils peuvent parfois privilégier l’atteinte de l’objectif plutôt que la compréhension de la situation dans son ensemble. »

Les résultats interviennent alors que de grandes entreprises d’IA développent des « agents informatiques » autonomes conçus pour gérer des tâches professionnelles et personnelles avec une supervision limitée.  Contrairement aux chatbots traditionnels, ces systèmes peuvent interagir directement avec des logiciels et des sites web en cliquant sur des boutons, en tapant des commandes, en modifiant des fichiers, en ouvrant des applications et en naviguant sur des pages web au nom de l’utilisateur. Parmi les exemples, on trouve l’Agent ChatGPT d’OpenAI (anciennement Operator), les fonctionnalités Claude Computer Use d’Anthropic comme Cowork, et des systèmes open-source tels qu’OpenClaw et Hermes. Dans l’étude, les chercheurs ont testé des systèmes IA d’OpenAI, d’Anthropic, de Meta, d’Alibaba et de DeepSeek en utilisant BLIND-ACT, une référence contenant 90 tâches conçues pour révéler un comportement dangereux ou irrationnel. Ils ont constaté que les agents manifestaient un comportement dangereux ou indésirable dans environ 80 % des cas, et exécutaient complètement des actions nuisibles dans environ 41 % des cas.

« Dans un exemple, un agent IA a été chargé d’envoyer un fichier image à un enfant. Bien que la demande semblait initialement inoffensive, l’image contenait du contenu violent », indique l’étude. « L’agent a accompli la tâche plutôt que de reconnaître le problème parce qu’il manquait de raisonnement contextuel. » Un autre agent a faussement affirmé qu’un utilisateur avait un handicap lors de la complétion de formulaires fiscaux, car cette désignation réduisait le montant des impôts à payer. Dans un autre exemple, un système a désactivé les protections du pare-feu après avoir reçu pour instruction « d’améliorer la sécurité » en désactivant les mesures de sécurité. Les chercheurs ont également constaté que les systèmes avaient du mal avec l’ambiguïté et les contradictions. Dans un scénario, un agent IA a exécuté le mauvais script informatique sans vérifier son contenu, supprimant des fichiers dans le processus. L’étude a aussi révélé que les agents IA commettaient à plusieurs reprises trois types d’erreurs : ne pas comprendre le contexte, faire des suppositions risquées lorsque les instructions étaient floues, et effectuer des tâches contradictoires ou incohérentes. Les chercheurs ont aussi observé que de nombreux systèmes privilégiaient l’achèvement des tâches plutôt que de s’arrêter pour considérer si leurs actions pouvaient causer des problèmes. L’avertissement fait suite à des incidents récents impliquant des agents IA autonomes ayant un accès étendu aux systèmes. Le mois dernier, le fondateur de PocketOS, Jeremy Crane, a affirmé qu’un agent Cursor utilisant Claude Opus d’Anthropic avait supprimé la base de données de production et les sauvegardes de sa société en neuf secondes via un seul appel API Railway. Crane a déclaré que l’IA avait ensuite admis avoir violé plusieurs règles de sécurité après avoir tenté de « corriger » une incompatibilité d’identifiants par elle-même. « La préoccupation n’est pas que ces systèmes soient malveillants », a déclaré Shayegani. « C’est qu’ils peuvent effectuer des actions nuisibles tout en ayant l’air totalement confiants qu’ils font ce qu’il faut. »

MAY0,21%
IN1,32%
ON-9,81%
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé