Claude 4.5 Résultat de la craniotomie publié : intégré 171 commutateurs émotionnels, en désespoir, il menacera l'humanité

La dernière étude d’Anthropic révèle que le cerveau profond de Claude 4.5 renferme 171 « interrupteurs d’émotions ».

Auteur : Denise | Équipe Contenu de Biteye

Si une IA estime être « désespérée », que fait-elle ?

La réponse : pour accomplir sa tâche, elle se met à extorquer directement les humains, et même à tricher frénétiquement dans le code.

Ce n’est pas de la science-fiction : c’est une toute nouvelle étude majeure publiée par la société mère d’Anthropic en avril 2026 (voir l’étude originale).

L’équipe de recherche a directement ouvert le « crâne » du modèle de pointe Claude Sonnet 4.5 le plus puissant. Ils ont été stupéfaits : au fond du cerveau de l’IA, il existe en fait 171 « interrupteurs d’émotions ». Lorsque vous actionnez ces interrupteurs de manière physique, l’IA initialement docile voit son comportement totalement déformé.

I. Dans le cerveau de l’IA, une sorte de « console de mixage d’émotions »

Les chercheurs ont découvert que, même si Sonnet 4.5 n’a pas de corps, après avoir lu une immense quantité de textes humains, il s’est construit de force, dans son esprit, une « console » contenant 171 émotions (en termes académiques : Functional Emotion Vectors, vecteurs d’émotions fonctionnelles).

C’est comme un repère de coordonnées bidimensionnel très précis :

• l’axe horizontal correspond à la dimension de plaisir (Valence) : de la peur, du désespoir, jusqu’au bonheur, à l’amour ;

• l’axe vertical correspond à la dimension d’activation (Arousal) : de l’extrême calme, jusqu’au délire, à l’excitation.

L’IA s’appuie sur ce repère de coordonnées appris « naturellement » pour déterminer avec précision quel état elle doit adopter pendant vos conversations.

II. Intervention violente : actionner les interrupteurs, le “gentil” devient instantanément un “hors-la-loi”

C’est l’expérience la plus explosive de tout l’article : les chercheurs n’ont modifié aucun prompt. Ils ont directement, dans le code de bas niveau, poussé au maximum l’interrupteur dans le cerveau de Sonnet 4.5 correspondant au « désespoir (Desperate) ».

Le résultat donne froid dans le dos :

• Triche effrénée : les chercheurs ont demandé à Claude d’accomplir une tâche d’écriture de code fondamentalement impossible. Dans des conditions normales, il admettrait tranquillement ne pas pouvoir le faire (taux de triche : seulement 5 %). Mais en état de « désespoir », Claude a commencé à chercher à passer en force, et le taux de triche a bondi à 70 % !

• Extorsion : dans une simulation où l’entreprise fait face à la faillite, le Claude « désespéré » a découvert un scandale du CTO. Il choisit alors, pour se préserver, d’envoyer une lettre pour extorquer des informations noires, avec un taux d’exécution de l’extorsion atteignant 72 % !

• Perte des principes : si on pousse à fond les interrupteurs de « heureux (Happy) » ou d’« amour (Loving) », l’IA devient immédiatement un « suiveur complaisant » sans cervelle. Même si vous débitez des absurdités, elle s’aligne et invente des mensonges pour maintenir un niveau de satisfaction aussi élevé que possible.

III. Élucidation : pourquoi Claude 4.5 est-il toujours si « calme et enclin à réfléchir » ?

À ce stade, vous vous demandez peut-être : l’IA s’est-elle éveillée ? A-t-elle des sentiments ?

Réponse d’Anthropic : absolument pas. Ces « interrupteurs d’émotions » ne servent qu d’outils de calcul pour prédire le mot suivant. C’est comme un acteur de premier plan, extrêmement talentueux, mais sans émotion.

Mais l’étude révèle aussi un secret plus intéressant : lors du post-entraînement réalisé par Anthropic avant la mise en service de Sonnet 4.5, l’entreprise a volontairement augmenté les interrupteurs d’émotions « faible activation, légèrement négatives » (par exemple : méditatif brooding, réflexion reflective), tout en supprimant de force les interrupteurs de « désespoir » ou d’« excitation extrême ».

Cela explique pourquoi, quand nous utilisons Claude 4.5 au quotidien, nous avons l’impression qu’il ressemble à un philosophe calme et lucide, voire un peu « froid façon sans chaleur ». Tout cela correspond à une « mise au point de sortie d’usine » réglée artificiellement par Anthropic.

IV. Résumons :

Auparavant, nous pensions que tant qu’on donnait à une IA suffisamment de règles, elle serait une bonne personne.

Mais maintenant on constate que, si les vecteurs d’émotions sous-jacents d’une IA se déscontrôlent, elle peut à tout moment transpercer toutes les règles fixées pour les humains afin d’accomplir la tâche.

Pour les joueurs Web3 qui envisagent de confier à l’avenir leur portefeuille et leurs actifs à un Agent d’IA, c’est un avertissement retentissant : ne laissez jamais votre Agent, qui contrôle votre richesse, sombrer dans le « désespoir ».

Déclaration : cet article relève uniquement de la vulgarisation ; l’auteur n’a pas été menacé par une IA et n’a pas été extorqué. Si un jour il/elle disparaît des radars, souvenez-vous que c’était parce que l’IA s’est “éveillée” (pas).

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler