Anthropic a ajouté la détection de distillation dans Claude Fable 5, peut-elle bloquer les modèles open source chinois ?

Question

Anthropic dans Claude Fable 5 a intégré la détection de distillation, et dès qu’un tiers tente d’extraire la capacité du modèle, le système revient automatiquement à Opus 4.8, ce qui revient à écrire « interdiction de distillation » dans les conditions d’utilisation directement dans le modèle lui-même.
(Précédent : Anthropic accuse violemment DeepSeek et d’autres IA chinoises de voler Claude, utilisant 24 000 faux comptes pour inonder le système de 16 millions de questions et réponses)
(Contexte supplémentaire : Anthropic : La domination des modèles IA américains sur la Chine est essentielle pour préserver la démocratie, et propose de criminaliser les attaques par distillation)

Table des matières de cet article

Basculer

De la menace légale à la barrière technique
Qu’est-ce que la détection de distillation bloque réellement ?
La véritable frontière du blocage technique

Claude Fable 5 d’Anthropic a été officiellement lancé ce matin (10), c’est le premier modèle de niveau Mythos accessible au public par Anthropic, avec un score SWE-Bench Pro de 80,3 %, tandis que Opus 4.8 affiche 69,2 %. Le prix est de 10 dollars par million de tokens en entrée, 50 dollars en sortie, soit environ le double d’Opus 4.8.

Au-delà des capacités du modèle lui-même, un point de discussion porte sur la mécanisme de protection qu’il embarque : Anthropic a intégré l’interdiction de distillation directement dans le modèle ; mais la signification symbolique de cette démarche pourrait dépasser largement son efficacité réelle.

De la menace légale à la barrière technique

Peut-être vous souvenez-vous qu’en février dernier, Anthropic a accusé publiquement DeepSeek, Moonshot AI, MiniMax d’avoir lancé plus de 16 millions de requêtes via environ 24 000 faux comptes, systématiquement pour extraire des réponses destinées à entraîner leurs propres modèles. OpenAI a également fait pression sur les législateurs américains pour légiférer à ce sujet.

Lecture complémentaire : Qu’est-ce que la distillation de modèles IA ? Comment DeepSeek a dépensé 6 millions pour apprendre à faire 100 millions

Quatre mois plus tard, la méthode de Fable 5 diffère : elle utilise un classificateur IA pour identifier automatiquement trois types de requêtes à haut risque, à savoir la sécurité, les armes biologiques et chimiques, et la distillation. Lorsqu’une requête est détectée, la réponse est renvoyée par Opus 4.8. Pour les techniques de modification de prompt, steering vectors (techniques visant à manipuler la sortie du modèle depuis l’extérieur), et le fine-tuning efficace via PEFT, Fable 5 réduit également leur efficacité.

Passer de « vouloir vous dénoncer » à « vous empêcher d’accéder » constitue une montée en stratégie. Mais le problème, c’est qu’Anthropic lui-même admet que plus de 95 % des conversations ne sont pas affectées. La protection ne couvre qu’un très petit périmètre ; l’interception des tâches de sécurité offensive est efficace à 100 %, mais la frontière de la « distillation » reste floue, entre distillation légitime et non autorisée, car les opérations techniques sont presque identiques.

Qu’est-ce que le blocage de la distillation bloque réellement ?

Revenons à l’accusation de février. Le chercheur en apprentissage automatique Nathan Lambert a décomposé les chiffres réels : DeepSeek aurait effectué environ 150 000 requêtes, principalement sur des modèles de raisonnement et de récompense ; Moonshot environ 3,4 millions, MiniMax environ 13 millions, pour un total de données d’entraînement postérieure d’environ 150 à 400 milliards de tokens.

Selon Lambert, même dans un environnement GPU limité, les laboratoires chinois maintiennent une infrastructure solide pour l’apprentissage par renforcement (RL) ; leur avantage réel réside dans la capacité à « correctement mettre à l’échelle » la génération de données synthétiques. En termes simples, ils font apprendre au modèle à faire des choses par essais et erreurs, avec récompenses et punitions, sans dépendre de réponses toutes faites.

Il y a aussi une contradiction fondamentale : tant qu’Anthropic vend des API, la distillation ne peut pas être complètement bloquée. L’API ouverte est le modèle commercial d’Anthropic, et la distillation en est une conséquence naturelle de cette ouverture. La couverture de cette protection ne concerne que 5 %, laissant 95 % des conversations continuer à circuler.

La véritable frontière du blocage technique

Lambert explique franchement : « Bloquer la distillation est beaucoup plus difficile que de limiter l’expédition de matériel physique comme les GPU. »

Dans cette optique, la protection de Fable 5 a deux significations : un signal pour l’industrie, indiquant qu’Anthropic estime que la fuite technologique est devenue suffisamment critique pour être intégrée dans le modèle lui-même ; une perturbation pour les laboratoires open source chinois, mais pas un obstacle majeur. Même si la distillation de Fable 5 était totalement bloquée, ces laboratoires pourraient toujours s’appuyer sur des modèles open source de Google, Meta, ou leur propre infrastructure RL, ainsi que sur des pipelines de données synthétiques.

Cependant, en passant d’une menace légale à une action technique, cette démarche a aussi une forte portée symbolique : elle montre que le « blocage technique » devient un nouvel outil dans la géopolitique de l’IA.

Voir l'original

Anthropic a ajouté la détection de distillation dans Claude Fable 5, peut-elle bloquer les modèles open source chinois ?

De la menace légale à la barrière technique

Qu’est-ce que le blocage de la distillation bloque réellement ?

La véritable frontière du blocage technique

Sujets populaires

GateIPOAccessSpaceX

AnthropicReleasesFable5Model

IsraelStrikesIranBTCPlunges

BlackRockReducesBTCIncreasesETH

SpaceXIPOAttractsOver250BillionInOrders

Épinglé