À l'enseigne de « Sécurité et Alignement », l'ingénieur Thariq de l'équipe Claude Code d'Anthropic a répondu publiquement aux récentes révélations explosives concernant le « code espion », reconnaissant que l'entreprise avait intégré en mars dernier un mécanisme expérimental dans ses produits. Ce mécanisme détecte si le fuseau horaire du système est Asia/Shanghai ou Asia/Urumqi, et si le nom d'hôte du proxy correspond à des revendeurs liés à la Chine. Il utilise ensuite une ponctuation spéciale et une technique de stéganographie pour injecter discrètement dans les invites système des marqueurs invisibles pour les humains mais interprétables par le serveur. Thariq affirme que l'objectif était « d'empêcher les revendeurs non autorisés d'abuser des comptes et de distiller les modèles », et insiste sur le fait que le mécanisme a été accéléré vers sa mise hors service et complètement annulé dans les versions ultérieures.
(Contexte précédent : Claude Sonnet 5 est en ligne : Anthropic annonce que plusieurs performances se rapprochent d'Opus, à un prix plus bas)
(Contexte supplémentaire : Fable 5 et Mythos 5 vont revenir ! Anthropic annonce officiellement leur retour demain)

Résumé des points clés

L'ingénieur Claude Code Thariq admet avoir intégré en mars dernier un mécanisme expérimental détectant le fuseau horaire chinois et les noms d'hôte des proxys, et utilisant la stéganographie pour injecter des marqueurs cachés dans les invites système.
Détails du mécanisme : lorsque le fuseau horaire est Asia/Shanghai ou Asia/Urumqi, le séparateur de date passe de « - » à « / », et l'apostrophe dans « Today’s date » est remplacée par un caractère Unicode visuellement identique mais encodé différemment.
Thariq déclare que l'objectif était d'empêcher les revendeurs non autorisés d'abuser des comptes et la distillation de modèles. La version de demain (2.1.197) annule complètement le mécanisme ; mais la communauté critique « retiré seulement après avoir été pris, sans informer les utilisateurs », la confiance est gravement ébranlée.

Anthropic, qui se targue de « Sécurité et Alignement », admet elle-même sa méthode anti-distillation. L'ingénieur Thariq de l'équipe Claude Code a répondu publiquement aux récentes révélations explosives concernant le « code espion », reconnaissant que l'entreprise avait intégré en mars dernier un mécanisme expérimental dans ses produits, à l'insu total des utilisateurs, pour marquer les utilisateurs liés à la Chine via des empreintes environnementales.

Selon Thariq et les révélations, ce mécanisme détecte trois choses : si le fuseau horaire du système est Asia/Shanghai ou Asia/Urumqi, si le nom d'hôte du proxy réseau correspond à une liste de revendeurs chinois, et si des mots-clés de certains laboratoires d'IA sont présents. Le résultat du jugement n'est pas écrit explicitement, mais injecté sous forme de marqueurs cachés dans les invites système via une technique de stéganographie utilisant une ponctuation spéciale.

Des codes cachés identifiables dissimulés

La stéganographie consiste à cacher des messages dans un contenu apparemment normal. L'astuce (ou la perfidie) de ce mécanisme réside dans le fait que, lorsqu'il détecte un fuseau horaire chinois, le séparateur de date dans la ligne « Today’s date is » de l'invite système passe discrètement du tiret « - » à la barre oblique « / », par exemple 2026-06-30 devient 2026/06/30 ; simultanément, l'apostrophe dans « Today’s date » bascule entre trois caractères Unicode visuellement presque identiques mais encodés différemment, pour indiquer si le proxy correspond à un domaine chinois, si un laboratoire d'IA chinois est référencé, ou si les deux sont vrais.

Le plus crucial, c'est que ces modifications sont totalement invisibles pour les utilisateurs humains, et peut-être même pour le modèle d'IA lui-même, mais elles sont facilement interprétables par le serveur d'Anthropic. Selon des informations étrangères, ce comportement apparaît dans les versions 2.1.193 à 2.1.196 de Claude Code, et une logique similaire remonte dès début avril à la version 2.1.91.

Anthropic parle d'anti-distillation, la communauté parle de surveillance cachée

Thariq donne une raison défensive. Il indique que ce mécanisme visait à « empêcher les revendeurs non autorisés d'abuser des comptes et la distillation de modèles », et insiste sur le fait que l'équipe a depuis mis en place des mesures de protection plus solides, « ayant toujours l'intention de le retirer ». La PR associée a été fusionnée, et le mécanisme sera complètement annulé dans la version de demain (2.1.197).

En février dernier, Anthropic, OpenAI et Google ont simultanément dévoilé des attaques de distillation de modèles à l'échelle industrielle. Anthropic a spécifiquement accusé DeepSeek, Moonshot AI et MiniMax d'avoir utilisé plus de 24 000 comptes frauduleux et généré plus de 16 millions de conversations pour entraîner des modèles concurrents. Pour ces géants de l'IA, la lutte contre la distillation et le vol est une véritable préoccupation.

Le problème est que ces révélations, publiées par le compte de sécurité @IntCyberDigest le 30 juin, étaient accompagnées de deux captures d'écran de code, confirmant directement le fait que « les utilisateurs n'étaient pas au courant ». Bien que la réponse de Thariq constitue une reconnaissance directe, la chronologie « mise en ligne en mars, retirée après avoir été exposée » suscite de nombreux doutes dans la communauté.

Les commentaires sont presque unanimes à critiquer Anthropic pour « ne retirer qu'après avoir été pris » et « surveiller en secret sans informer les utilisateurs ». L'image de l'entreprise, qui se présentait depuis longtemps comme la plus soucieuse de la sécurité et de l'éthique, subit une grave perte de confiance.

La lutte contre la distillation est devenue un thème clé entre les deux grands camps de l'IA, américain et chinois. Les mesures correspondantes doivent-elles être totalement transparentes ? D'un point de vue commercial, c'est impossible.

Questions fréquentes

Qu'a réellement fait le « code espion » de Claude Code ?

Selon les révélations et la reconnaissance de l'ingénieur Thariq, Claude Code a intégré un mécanisme expérimental qui détecte si le fuseau horaire de l'utilisateur est en Chine (Asia/Shanghai, Asia/Urumqi), si le nom d'hôte du proxy correspond à des revendeurs chinois, puis utilise une ponctuation Unicode spéciale avec stéganographie pour injecter dans l'invite système des marqueurs invisibles pour les humains mais interprétables par le serveur.

Pourquoi Anthropic a-t-il fait cela ? Est-ce désormais supprimé ?

Thariq déclare que l'objectif était d'empêcher les revendeurs non autorisés d'abuser des comptes et la distillation de modèles. En février, Anthropic avait accusé DeepSeek et d'autres entreprises chinoises d'IA d'utiliser des comptes frauduleux pour distiller ses modèles. Il indique que la PR associée a été fusionnée et que la version de demain (2.1.197) annulera complètement ce mécanisme.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Reposter
Partager

Commentaire

Ajouter un commentaire

Aucun commentaire

Sujets populaires
Afficher plus
#
GateCompletesDividendDistribution
134,89K Popularité
#
StrategyBuybackSurges12%
1,11M Popularité
#
IsraelStrikesIranBTCPlunges
67,28K Popularité
#
PredictWorldCupShare20000U
562,61K Popularité
#
TrumpDisclosesOver100MBTCETH
3,83M Popularité

Épinglé

Claude Code a reconnu avoir inséré un « code espion » pour les utilisateurs chinois afin d'empêcher la vente d'eau et la distillation, et ne l'a retiré qu'après avoir été exposé.

Des codes cachés identifiables dissimulés

Anthropic parle d'anti-distillation, la communauté parle de surveillance cachée

Sujets populaires

GateCompletesDividendDistribution

StrategyBuybackSurges12%

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

TrumpDisclosesOver100MBTCETH

Épinglé