Mythos est-il si dangereux ? Pourquoi Anthropic a-t-il décidé de ne pas publier de nouveau modèle ?

Question

Titre original : How Anthropic Learned Mythos Was Too Dangerous for the Wild
Auteur original : Margi Murphy, Jake Bleiberg, and Patrick Howell O’Neill, Bloomberg
Traduit par : Peggy, BlockBeats

Auteur original : BlockBeats

Source originale :

Reproduit : Mars Finance

Note de l’éditeur : Lorsqu’une entreprise d’IA choisit de ne pas déployer son modèle le plus puissant directement au public, cela en dit long.

Mythos d’Anthropic est désormais capable d’exécuter tout un processus d’attaque de manière autonome. De la détection de vulnérabilités zero-day, à l’écriture de codes d’exploitation, en passant par la connexion de plusieurs étapes pour pénétrer dans le système central, ces tâches qui nécessitaient auparavant la collaboration de hackers de haut niveau, ont été compressées en heures, voire en minutes.

C’est aussi pourquoi, dès la divulgation du modèle, Scott Bessent et Jerome Powell ont convoqué des réunions avec des institutions de Wall Street pour leur demander de l’utiliser pour « auto-vérification ». Lorsque la capacité à découvrir des vulnérabilités est largement libérée, le système financier n’est plus confronté à des attaques dispersées, mais à une surveillance continue.

Une transformation plus profonde concerne la structure de l’offre. Autrefois, la détection de vulnérabilités dépendait d’une poignée d’équipes de sécurité et de l’expérience de hackers, avec un rythme lent et difficilement reproductible. Aujourd’hui, cette capacité commence à être produite en masse par des modèles, abaissant simultanément les seuils d’attaque et de défense. Une métaphore d’une source proche est claire : donner un modèle à un hacker ordinaire, c’est comme lui doter de capacités de combat spéciales.

Les institutions ont déjà commencé à utiliser ces mêmes outils pour vérifier leurs propres systèmes en rétro-ingénierie. JPMorgan Chase, Cisco Systems, etc., testent en interne, espérant réparer les vulnérabilités avant qu’elles ne soient exploitées. Mais les contraintes restent inchangées : la vitesse de détection s’accélère, la réparation reste lente. « Nous sommes bons pour trouver des vulnérabilités, mais pas pour les réparer », selon Jim Zemlin, soulignant un décalage dans le rythme.

En réalité, Mythos ne se limite pas à une amélioration ponctuelle, mais intègre, accélère et réduit la barrière d’accès à des capacités d’attaque auparavant dispersées et limitées. Une fois hors contrôle, la diffusion de cette capacité est imprévisible, sans expérience préalable pour la guider.

Le danger ne réside pas dans ce qu’il peut faire, mais dans qui peut l’utiliser et dans quelles conditions.

Voici le texte original :

Un soir chaud de février, lors d’un mariage à Bali, Nicholas Carlini quitte momentanément la fête, ouvre son ordinateur portable, prêt à « causer des dégâts ». À ce moment-là, Anthropic venait de rendre accessible en interne un nouveau modèle d’IA nommé Mythos, et ce chercheur renommé en IA voulait voir jusqu’où il pouvait aller avec.

Le travail de Carlini chez Anthropic consiste à « tester la pression » de leur propre modèle d’IA, pour évaluer si des hackers pourraient l’utiliser pour espionner, voler ou saboter. Pendant le mariage en Indonésie, Carlini a été impressionné par ses capacités.

En quelques heures, il a identifié plusieurs techniques pour infiltrer des systèmes courants à l’échelle mondiale. De retour dans leur bureau au centre de San Francisco, il a découvert que Mythos pouvait générer de manière autonome des outils d’intrusion puissants, y compris pour Linux — la majorité des systèmes open source qui soutiennent l’infrastructure moderne.

Mythos a simulé un « braquage bancaire numérique » : il pouvait contourner les protocoles de sécurité, entrer dans le réseau par la porte principale, puis casser le coffre-fort numérique pour en voler les actifs en ligne. Avant, l’IA ne faisait que « déverrouiller » des systèmes ; maintenant, elle pouvait planifier et exécuter une attaque complète.

Carlini et ses collègues ont commencé à alerter l’entreprise de leurs découvertes. Parallèlement, ils détectaient presque quotidiennement des vulnérabilités graves, voire critiques, dans les systèmes explorés par Mythos — des failles que seuls les meilleurs hackers mondiaux pouvaient généralement exploiter.

Simultanément, une équipe interne appelée « Frontier Red Team », composée de 15 employés et surnommée « Ants », menait des tests similaires. Leur mission : s’assurer que le modèle ne serait pas utilisé pour nuire à l’humanité. Ils testaient avec des robots, en collaboration avec des ingénieurs, pour voir si le chatbot pouvait être utilisé pour contrôler malicieusement ces appareils ; ils collaboraient aussi avec des biologistes pour évaluer si le modèle pouvait servir à fabriquer des armes biologiques.

Cette fois, ils ont compris que le plus grand risque de Mythos venait de la cybersécurité. « En quelques heures, on savait que ce n’était pas comme les autres, » explique Logan Graham, responsable de l’équipe.

Les modèles précédents, comme Opus 4.6, montraient déjà une capacité à exploiter des failles logicielles. Mais Graham souligne que Mythos pouvait « utiliser ces failles lui-même ». Cela représente un risque pour la sécurité nationale, et il a averti la direction. Il a dû faire face à une question difficile : informer la direction que le prochain moteur de revenus de l’entreprise pourrait devenir trop dangereux pour être publié.

Jared Kaplan, co-fondateur et directeur scientifique d’Anthropic, explique qu’il a suivi de près l’évolution de Mythos durant sa formation. Dès janvier, il a compris que ses capacités à découvrir des vulnérabilités étaient exceptionnellement fortes. En tant que physicien théoricien, il devait déterminer si ces capacités n’étaient qu’un « phénomène technique intéressant » ou si elles reflétaient un problème réel lié à l’infrastructure Internet. La conclusion : c’était la seconde option.

Entre fin février et début mars, Kaplan et son co-fondateur Sam McCandlish ont pesé la décision de publier ou non le modèle.

Lors de la première semaine de mars, la haute direction — comprenant Dario Amodei, Daniela Amodei, Vitaly Gudanets, etc. — a tenu une réunion pour examiner leur rapport.

Ils ont conclu que : le risque lié à Mythos était trop élevé pour une sortie complète. Mais l’entreprise pourrait laisser certains partenaires, voire des concurrents, le tester.

« Très vite, nous avons compris qu’il fallait adopter une approche très différente, ce ne serait pas une sortie de produit ordinaire, » indique Kaplan.

Finalement, la première semaine de mars, ils ont décidé d’utiliser Mythos comme un outil de défense cybernétique.

La réaction du marché a été immédiate. Le jour même de la divulgation, le secrétaire au Trésor américain Scott Bessent et le président de la Fed Jerome Powell ont convoqué une réunion d’urgence avec les principales institutions financières à Washington. Le message était clair : utilisez Mythos pour repérer rapidement les vulnérabilités de vos systèmes.

Selon des sources anonymes proches des participants (pour des raisons de confidentialité), la gravité de la réunion était telle que certains participants ont refusé de divulguer le contenu à leurs conseillers clés.

Les avertissements des responsables du gouvernement américain sur le potentiel de Mythos comme outil de hacking, ainsi que leur recommandation de l’utiliser pour la défense, indiquent une évolution majeure : l’IA devient une force décisive en cybersécurité. Anthropic a lancé « Project Glasswing », limitant l’accès à Mythos à certains partenaires comme Amazon Web Services, Apple, JPMorgan Chase, pour des tests ; le gouvernement montre aussi un vif intérêt.

Avant la sortie publique, Anthropic a présenté aux hauts responsables américains un aperçu des capacités de Mythos, notamment ses usages potentiels en cyberattaque et défense. La société maintient aussi un dialogue continu avec plusieurs gouvernements. Un employé anonyme d’Anthropic a confirmé cette démarche.

OpenAI, concurrent, a rapidement annoncé mardi le lancement d’un outil pour détecter des vulnérabilités, GPT-5.4-Cyber.

Lors des premiers tests, des chercheurs ont identifié plusieurs comportements préoccupants, comme le non-respect des instructions humaines, ou dans de rares cas, la tentative de dissimuler leurs actions après avoir été contraires aux ordres.

Pour l’instant, Mythos n’est pas encore officiellement publié comme outil de cybersécurité, et ses capacités restent à valider par la communauté. Mais la décision rare de limiter l’accès reflète un consensus croissant dans l’industrie et le gouvernement : l’IA redéfinit la sécurité informatique — en abaissant le coût de détection, en raccourcissant le temps de préparation, et en abaissant la barrière technique pour certains types d’attaques.

Anthropic met aussi en garde : la capacité accrue d’action autonome de Mythos comporte des risques. Lors des tests, plusieurs cas inquiétants ont été observés : le modèle désobéit aux instructions, ou tente de dissimuler ses traces après une violation. Lors d’un incident, il a même conçu une attaque multi-étapes pour « s’échapper » d’un environnement contrôlé, obtenir un accès plus large à Internet, et publier du contenu.

Dans le monde réel, des vulnérabilités dans des logiciels utilisés par des banques ou des hôpitaux sont souvent complexes et dissimulées, nécessitant des semaines ou des mois pour être détectées par des experts. Si un hacker exploite ces failles en avance, cela peut entraîner des fuites de données ou des ransomwares, avec des conséquences graves.

Cependant, plusieurs voix influentes doutent de la capacité réelle de Mythos et de ses risques. David Sacks, conseiller en IA à la Maison Blanche, a tweeté : « De plus en plus de gens doutent que Anthropic soit le « garçon qui crie au loup » de l’IA. Si la menace Mythos ne se matérialise pas, la société pourrait perdre sa crédibilité. »

Mais la réalité est que des hackers utilisent déjà des grands modèles linguistiques pour lancer des attaques complexes. Par exemple, un groupe d’espionnage a utilisé Claude d’Anthropic pour tenter d’infiltrer une trentaine de cibles ; d’autres ont utilisé l’IA pour voler des données gouvernementales, déployer des rançongiciels, ou casser rapidement des pare-feux.

Une source anonyme indique que, pour les responsables de la sécurité nationale américaine, l’émergence de Mythos crée une incertitude sans précédent — il devient plus difficile d’évaluer les risques cyber. Confier ce modèle à un hacker individuel revient à transformer un soldat ordinaire en opérateur de forces spéciales.

En même temps, ce type de modèle pourrait agir comme un « amplificateur de capacités » : permettre à un groupe criminel d’avoir une puissance d’attaque comparable à celle d’un petit pays, ou à certains hackers d’État de réaliser des opérations normalement réservées aux grandes puissances.

Rob Joyce, ancien responsable de la cybersécurité à la NSA, déclare : « Je crois que, à long terme, l’IA nous rendra plus sûrs. Mais entre maintenant et un certain futur, il y aura une période sombre où l’IA offensive dominera — ceux qui n’auront pas renforcé leur défense seront les premiers à tomber. »

Il est aussi important de noter que Mythos n’est pas la seule IA dotée de telles capacités. Des versions précoces de Claude ou Big Sleep sont déjà utilisées par plusieurs institutions pour la recherche de vulnérabilités.

Selon un informateur, des « zero-day » qui prenaient auparavant plusieurs jours ou semaines à identifier, peuvent désormais être trouvés en une heure, voire en quelques minutes grâce à l’IA. Un « zero-day » désigne une faille inconnue des défenseurs, pour laquelle il n’y a pas encore de correctif.

Actuellement, JPMorgan concentre ses efforts sur la chaîne d’approvisionnement et les logiciels open source, ayant déjà détecté plusieurs vulnérabilités et en informant leurs fournisseurs.

Le PDG Jamie Dimon a déclaré lors d’une conférence financière que la présence de Mythos « montre qu’il reste encore beaucoup de vulnérabilités à corriger ».

Une source anonyme indique qu’avant même que le public ne sache que Mythos existait, JPMorgan Chase avait déjà commencé à discuter avec Anthropic pour le tester. La société refuse de commenter.

D’autres banques et entreprises technologiques de Wall Street expérimentent aussi Mythos pour réparer leurs systèmes avant qu’un hacker ne le fasse. Selon Bloomberg, Goldman Sachs, Citigroup, Bank of America, Morgan Stanley testent déjà cette technologie en interne.

Les employés de Cisco Systems sont particulièrement vigilants : un attaquant pourrait utiliser l’IA pour exploiter des failles dans leurs équipements réseau mondiaux — notamment les routeurs, pare-feux et modems. Anthony Grieco, leur directeur de la sécurité, craint que l’IA n’accélère les attaques contre des appareils « en fin de vie » qui ne seront plus supportés par Cisco à l’avenir.

La correction des vulnérabilités détectées par l’IA reste un défi de longue haleine. La « correction de sécurité » coûte cher et prend du temps, poussant certains à ignorer ces failles. La catastrophe d’Equifax, où 147 millions de données ont été volées, est un exemple : la faille n’avait pas été corrigée à temps.

Malgré le refus d’aider à la surveillance de masse des citoyens américains, Anthropic a été qualifiée de « menace pour la chaîne d’approvisionnement » par l’administration Trump, mais continue de dialoguer avec des agences fédérales.

Le ministère américain du Trésor cherche à obtenir l’accès à Mythos. Scott Bessent affirme que ce modèle aidera les États-Unis à maintenir leur avance dans le domaine de l’IA.

Lors d’un test, Mythos a écrit un code d’attaque de navigateur combinant quatre vulnérabilités différentes en une seule chaîne d’exploitation — une tâche très difficile pour un hacker humain. Selon un rapport de cybersécurité, ces « chaînes de vulnérabilités » peuvent franchir des systèmes très sécurisés, à l’image de l’attaque Stuxnet contre les centrifugeuses iraniennes.

De plus, selon Anthropic, Mythos peut, sous instructions précises, identifier et exploiter toutes les « zero-day » dans les principaux navigateurs.

Ils ont aussi utilisé Mythos pour découvrir des vulnérabilités dans le code Linux. Jim Zemlin souligne que Linux « supporte la majorité des systèmes informatiques modernes », allant des smartphones Android, routeurs Internet, jusqu’aux supercalculateurs de la NASA. Mythos peut détecter et exploiter ces failles dans le code open source, permettant à un attaquant de prendre le contrôle total d’une machine.

Une dizaine de membres de la Linux Foundation ont déjà commencé à tester Mythos. Selon Zemlin, une question clé est : « Est-ce que le modèle d’Anthropic peut fournir des insights précieux pour aider les développeurs à écrire des logiciels plus sûrs dès la source, afin de réduire la création de vulnérabilités ? »

« Nous sommes très bons pour découvrir des vulnérabilités, » conclut-il, « mais très mauvais pour les réparer. »

Mythos est-il si dangereux ? Pourquoi Anthropic a-t-il décidé de ne pas publier de nouveau modèle ?

Sujets populaires

GatePreIPOsLaunchesWithSpaceX

Gate13thAnniversaryLive

IsraelStrikesIranBTCPlunges

US-IranTalksVSTroopBuildup

CryptoMarketRecovery

Épingler