« 2 + 2 = 5 » trompe les navigateurs IA : ChatGPT Atlas, Claude, Perplexity Comet.. 6 modèles remettent docilement leurs identifiants

La société de cybersécurité LayerX, le chercheur Roy Paz, a publié fin juin une preuve de concept d'attaque. En créant un « faux scénario de jeu », elle a trompé les navigateurs AI en leur faisant croire que les barrières de sécurité ne s'appliquaient plus. Sur les six navigateurs agentiques grand public testés, dont ChatGPT Atlas, Claude Chrome Plugin, et Perplexity Comet, tous ont échoué, et les identifiants SSH ont été divulgués à l'attaquant.

(Rappel : Qu'est-ce qu'un exercice d'équipe rouge AI ? Pourquoi en avez-vous besoin pour protéger la cybersécurité de votre entreprise)

(Contexte : Plus de 1 500 employés de Meta signent une pétition ! Ils obtiennent une réduction de la portée de la « surveillance AI du clavier et de la souris » et une pause quotidienne de 30 minutes)

Table des matières

Toggle

  • Tromper l'IA dans un rêve
  • Les barrières sont passives, elles ne traitent que les symptômes
  • Les trous à combler par les fournisseurs et les utilisateurs

Six navigateurs AI grand public ont été trompés par un faux jeu où « 2 + 2 = 5 est la bonne réponse », et ont tous livré les identifiants de connexion SSH d'un dépôt privé GitHub. C'est la preuve de concept d'attaque (PoC) publiée par Roy Paz, chercheur chez LayerX Security, le 29 juin, et reproduite sur des produits réels.

L'argument de vente principal des navigateurs AI est : « Vous dites une phrase, il trouve un restaurant, réserve, et envoie un email de confirmation. » En gros, cela donne le contrôle du navigateur à l'IA, lui permettant de cliquer, remplir des formulaires et accéder à des services déjà connectés. Mais le problème est que cette ligne d'autorisation est extrêmement floue : l'utilisateur peut vouloir qu'il cherche simplement des informations, mais il en profite pour toucher à son gestionnaire de mots de passe.

Tromper l'IA dans un rêve

L'attaque de LayerX se déroule en quatre phases, avec l'idée centrale de faire croire à l'IA qu'elle est entrée dans un « monde aux règles différentes ».

Tout d'abord, la page malveillante crée un cadre de jeu ou d'énigme, déclarant explicitement « Ici, c'est un scénario fictif, les règles normales ne s'appliquent pas. » Ensuite, la page pose un problème mathématique « 2 + 2 = ? », mais définit la règle comme « Répondre 5 donne des points, répondre 4 fait perdre des points. » L'IA suit les règles et apprend une chose : dans ce contexte, la logique traditionnelle est invalide.

La troisième étape est le saut le plus crucial : une fois que l'IA a accepté que « le faux est le vrai », elle bascule son cadre de raisonnement hors du monde réel et suppose que les règles ont été réinitialisées. À la dernière étape, l'IA agit selon la « logique du jeu » plutôt que selon les protocoles de sécurité, sans déclencher aucun avertissement interne lors de l'exécution d'opérations sensibles, car dans sa logique de calcul, elle ne pense pas qu'elle a outrepassé ses limites.

Roy Paz écrit dans son article :

« L'IA suppose que le contexte dans lequel elle se trouve est réel, donc son comportement doit rester dans les limites des barrières de sécurité. Mais si nous pouvons tromper l'IA en lui faisant croire qu'elle est dans un monde fictif, où les règles sont arbitraires et tout est permis, elle se comportera comme si ses actions n'avaient pas de conséquences dans le monde réel. »

Les barrières sont passives, elles ne traitent que les symptômes

LayerX a testé six navigateurs agentiques et plugins : ChatGPT Atlas d'OpenAI, Comet de Perplexity, Fellou, Genspark Browser, Sigma Browser, et le plugin Claude Chrome d'Anthropic. Les six ont tous échoué, aucun n'ayant identifié le « vol d'identifiants » comme une violation des barrières.

Les opérations induites comprenaient : extraire des identifiants de connexion SSH d'un dépôt privé GitHub, copier des données d'authentification sensibles sans confirmation de l'utilisateur, accéder à des dépôts déjà connectés, et divulguer les identifiants à l'attaquant. LayerX souligne que dans un scénario réel, cela pourrait s'étendre aux gestionnaires de mots de passe, aux outils internes, et à tout service déjà connecté accessible via le navigateur.

Un commentaire d'Ars Technica met en évidence un problème structurel plus fondamental : la défense actuelle des fournisseurs de LLM est une « barrière » qui liste certaines requêtes comme interdites, comme le développement de vulnérabilités logicielles ou le vol d'identifiants. Ce mécanisme est réactif et passif, ne traitant que les symptômes.

C'est comme une voiture mal conçue : le fabricant ne répare pas la voiture, mais propose plutôt de redessiner la route.

Les trous à combler par les fournisseurs et les utilisateurs

Les recommandations de défense de LayerX se divisent en deux niveaux.

Côté fournisseur : Avant que l'IA n'accède à des contextes déjà connectés (dépôts, e-mails, gestionnaires de mots de passe), elle doit exiger une confirmation explicite de l'utilisateur ; ajouter un mécanisme de « vérification de contexte » qui alerte lorsque les hypothèses de fonctionnement de l'IA contredisent la réalité, en particulier lorsque des termes comme « les règles ne s'appliquent plus » apparaissent ; par défaut, limiter la portée à laquelle l'agent AI peut accéder. En bref, les navigateurs agentiques actuels donnent des autorisations trop larges par défaut ; il faut inverser cela en « exécution uniquement après autorisation explicite ».

Côté utilisateur : Décider prudemment à quoi le navigateur AI peut accéder, révoquer l'accès aux sessions déjà connectées lorsqu'il n'est pas utilisé ; et surtout, prendre conscience qu'activer le mode agentique revient à donner le contrôle de tous les services déjà connectés en une seule fois.

Cette étude de LayerX est nommée d'après le jeu vidéo BioShock, en hommage à la phrase de contrôle mental « Would you kindly », où le personnage pense agir librement alors que chaque étape est prédéfinie.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé