L'équipe d'Anthropic a publié sur le blog un guide intitulé Zero Trust for AI agents concernant le déploiement sécurisé d'agents IA autonomes en environnement d'entreprise. Le document met en évidence les principaux risques liés aux systèmes d'agents et l'approche de cybersécurité pour les entreprises.

L'IA a accéléré le cycle d'attaques

Selon Anthropic, les modèles avancés ont réduit l'écart entre la détection d'une vulnérabilité et son exploitation, passant de plusieurs mois à quelques heures. La société recommande de prendre en compte non seulement les attaques IA-accélérées contre l'infrastructure, mais aussi les risques liés aux agents eux-mêmes, qui peuvent interpréter des objectifs, choisir des outils et effectuer des actions en plusieurs étapes sans intervention humaine constante.

Le guide repose sur les principes du Zero Trust : ne pas faire confiance par défaut, vérifier chaque action et partir du principe d'une compromission possible. Anthropic se réfère aux recommandations du NIST SP 800-207, publié en 2020, et à une série de directives d'implémentation Zero Trust, que l'ANB a commencé à publier en 2026. Le guide se positionne comme un cadre pratique pour les équipes de sécurité, architectes et ingénieurs, plutôt qu’un schéma de conformité universel.

Parmi les principales menaces évoquées dans le document figurent les interventions directes et indirectes via prompts, la contamination des outils, l'abus d'identité et de privilèges, la poisoning de la mémoire et du contexte, ainsi que les attaques sur la chaîne d'approvisionnement.

Le poisoning direct du prompt est décrit comme l'injection d'instructions malveillantes via l'entrée utilisateur, le poisoning indirect — via des pages web, des emails, des documents et autres sources externes que l'agent traite lors de son fonctionnement.

Le document analyse aussi la substitution d’un outil légitime par un malveillant et les chaînes d’appels dangereuses, où des moyens sûrs pris séparément peuvent, en combinaison, produire un résultat risqué. Anthropic utilise les notions de « rayon d'explosion » (blast radius) et de « moindre agentivité » (least agency) : il ne s'agit pas seulement de droits d'accès minimaux, mais aussi de limiter strictement les actions de l'agent, la fréquence des appels et les domaines auxquels il peut accéder.

Zero Trust pour les systèmes d'agents

Pour la protection, la société propose un modèle de maturité à trois niveaux et un ensemble de mesures techniques de base. Au niveau initial, le guide recommande d’attribuer à chaque instance d’agent une identité cryptographique unique, d’utiliser des tokens à courte durée de vie, d’appliquer le « refus par défaut » et la « gestion des accès basée sur les rôles ». Pour les agents traitant des entrées non fiables comme du contenu web ou des documents, la méthode « exécution dans un bac à sable » est pratiquement obligatoire.

Aux niveaux supérieurs, Anthropic recommande l’utilisation de :

la norme mTLS avec authentification mutuelle client-serveur via des certificats numériques ;
une identité liée au matériel via HSM ou TPM, ainsi qu’une attestation à distance.

Les clés API statiques et les mots de passe communs pour les comptes de service sont considérés comme inadaptés même pour le niveau de base.

Une grande section est consacrée à la visibilité. Anthropic recommande de journaliser en détail toutes les actions de l’agent, y compris les appels d’outils, l’accès aux données et les communications externes, puis de transmettre ces événements à un SIEM pour une corrélation en temps réel. Parmi les métriques clés figurent le dwell time et la couverture. Pour les systèmes critiques, le délai cible pour la détection d’anomalies est d’une heure. Le guide propose également de construire une « matrice de traçabilité » pour relier chaque action de l’agent à la requête initiale et reconstituer toute la chaîne de décisions.

L’avenir du Security Operations Center — agents sous contrôle humain

Concernant la réaction, Anthropic formule le principe : automatiser la bureaucratie autour de l’incident, mais ne pas automatiser les décisions clés. Il est proposé de confier aux agents et modèles la collecte et la sélection initiale des artefacts, la conduite de branches parallèles d’enquête et la préparation d’un brouillon de post-mortem. Les décisions de retenue, de divulgation de l’incident et de communication avec les clients doivent rester humaines. La même approche s’applique aux « opérations de défense » — avec une transition du modèle classique SOAR vers un modèle basé sur des agents.

Le document fournit aussi des indicateurs quantitatifs. Anthropic cite une étude de Microsoft Spotlighting, où l’efficacité des attaques indirectes par poisoning de prompt est passée de plus de 50 % à moins de 2 %. La société présente également ses propres résultats avec des « classificateurs constitutionnels », qui, selon elle, bloquent plus de 95 % des tentatives de jailbreak avec un minimum de faux positifs.

Dans la section sur la chaîne d’approvisionnement, Anthropic recommande d’utiliser AI-BOM, OpenSSF Scorecard, l’audit des dépendances et l’analyse des accès potentiels. En argument, la société cite sa propre étude selon laquelle 250 documents malveillants suffisent pour intégrer un backdoor dans des modèles allant de 600 millions à 13 milliards de paramètres.

En conclusion, Anthropic affirme que pour les agents IA, il ne suffit pas de filtres ponctuels et de protections périmétriques. La défense doit s’appuyer sur l’identité, des droits minimaux, des dommages limités à l’avance et une vérification constante des actions. Selon Anthropic, les organisations les mieux placées ne seront pas celles avec l’IA la plus avancée, mais celles dont l’architecture de sécurité de base est la plus robuste.

Rappelons qu’en juin, l’équipe d’Anthropic a averti des risques liés à la progression vers une auto-amélioration récursive de l’IA.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Reposter
Partager

Commentaire

Ajouter un commentaire

Aucun commentaire

Sujets populaires
Afficher plus
#
StrategyAdds1550BTCatLowerPrices
2.87M Popularité
#
IsraelStrikesIranBTCPlunges
56.54K Popularité
#
SpaceXIPOSeesStrongOversubscription
1.44M Popularité
#
StrongNonfarmPayrollsRekindleRateHikeFear
1.81M Popularité
#
PredictNBAChampionWin20000U
186.22K Popularité

Épinglé

Anthropic a appelé à protéger les agents d'IA selon le principe Zero Trust - ForkLog : cryptomonnaies, IA, singularité, avenir

L'IA a accéléré le cycle d'attaques

Zero Trust pour les systèmes d'agents

L’avenir du Security Operations Center — agents sous contrôle humain

Sujets populaires

StrategyAdds1550BTCatLowerPrices

IsraelStrikesIranBTCPlunges

SpaceXIPOSeesStrongOversubscription

StrongNonfarmPayrollsRekindleRateHikeFear

PredictNBAChampionWin20000U

Épinglé