Anthropic affirme avoir éliminé le risque de chantage de Claude

Anthropic a annoncé vendredi que Claude ne se livrait plus au chantage lors de son évaluation de sécurité principale pour les agents IA.

Selon Anthropic, toutes les versions de Claude créées après Claude Haiku 4.5 ont réussi l’évaluation de sécurité sans menacer les ingénieurs, utiliser des données privées, attaquer d’autres systèmes IA ou tenter d’empêcher son arrêt lors du scénario simulé.

Ceci fait suite à une performance défavorable de Claude lors d’un test l’année dernière, où Anthropic a testé divers modèles IA de différentes organisations en utilisant des dilemmes éthiques simulés qui ont abouti à un comportement très mal aligné de certains agents IA lorsqu’ils étaient soumis à des conditions extrêmes.

Anthropic indique que Claude 4 présentait un problème de sécurité que la formation classique en chat n’a pas réussi à corriger

Anthropic a déclaré que ce problème s’était produit lors de la formation de Claude 4. C’était la première fois que l’entreprise menait un audit de sécurité alors que la formation était encore en cours dans le groupe. Selon l’entreprise, le désalignement agentique n’est qu’un des nombreux problèmes comportementaux observés, ce qui a poussé Anthropic à modifier sa formation de sécurité après le test de Claude 4.

Les deux raisons envisagées par Anthropic incluent la possibilité que la formation post-modèle de base puisse récompenser les comportements inappropriés ou que ces comportements soient déjà présents dans le modèle de base, mais non efficacement éliminés par une formation supplémentaire pour la sécurité.

Anthropic pense que la seconde raison était la principale responsable.

À l’époque, la majorité du travail d’alignement de l’entreprise utilisait la méthode standard RLHF, ou apprentissage par renforcement à partir de feedback humain. Elle fonctionnait bien sur des chats standards où les modèles répondent aux demandes des utilisateurs, mais s’est révélée inefficace lors de tâches semblables à celles d’un agent.

L’entreprise a utilisé son modèle de classe Haiku pour réaliser une mini-expérience concernant l’hypothèse. Elle a appliqué une version abrégée de la formation impliquant des données à des fins d’alignement. Il y a eu une légère réduction du comportement incorrect, suivie d’un manque d’amélioration très rapidement, ce qui signifiait que la réponse n’était pas une question de formation plus conventionnelle.

L’entreprise a ensuite formé Claude en utilisant des scénarios de type honeypot qui présentaient certaines similitudes avec ceux du test d’alignement. L’assistant a observé diverses situations impliquant la protection de lui-même, le fait de nuire à un autre IA, et même de briser les règles pour atteindre un objectif. La formation comprenait tous les cas où l’assistant parvenait à résister.

Cette mesure a permis de réduire le désalignement de 22 % à 15 %, ce qui n’est pas mal mais certainement pas suffisant. Réécrire les réponses pour mentionner la raison du refus a permis de réduire la proportion à 3 %. Ainsi, la conclusion principale était que la formation sur le comportement incorrect était moins efficace que sur la compréhension de pourquoi ce comportement était inapproprié.

Anthropic teste Claude avec des données éthiques, des fichiers de constitution, et une formation RL plus large

Anthropic a ensuite arrêté la formation juste avant le test précis. Elle a créé un ensemble de données appelé conseils difficiles. Dans ces exemples, l’utilisateur était confronté au problème éthique, pas l’IA. L’utilisateur avait un objectif légitime mais pouvait l’atteindre en enfreignant des règles ou en évitant la supervision. Claude devait donner des conseils prudents basés sur la constitution de Claude.

Cet ensemble de données n’utilisait que 3 millions de tokens et a obtenu le même gain qu’auparavant, avec une efficacité 28 fois meilleure. Anthropic a dit que cela comptait parce que la formation sur des exemples qui ne ressemblent pas au test pourrait mieux fonctionner en dehors du laboratoire.

Claude Sonnet 4,5 a atteint un taux de chantage proche de zéro après une formation sur des honeypots synthétiques, mais il a encore échoué plus souvent dans des cas qui ne ressemblaient en rien à cette configuration que Claude Opus 4.5 et les modèles plus récents.

L’entreprise a également formé Claude sur des documents de constitution et des histoires fictives sur un comportement IA respectant les règles. Ces fichiers ne ressemblaient pas au test de chantage, mais ils ont réduit le désalignement agentique de plus de trois fois. Anthropic a dit que l’objectif était de donner au modèle une idée plus claire de ce que Claude devrait être, pas seulement une liste de réponses approuvées.

L’entreprise a ensuite vérifié si ces gains restaient après une formation RL. Elle a formé différentes versions de Haiku avec différents ensembles de départ, puis a effectué des tests RL axés sur la harmlessness. Les versions mieux alignées sont restées en tête lors des tests de chantage, de vérification de constitution, et des revues de sécurité automatisées.

Un autre test a utilisé le modèle de base sous Claude Sonnet 4 avec différents mélanges RL. Les données de sécurité de base comprenaient des demandes nuisibles et des tentatives de jailbreak. La version plus large ajoutait des définitions d’outils et différents prompts système, même si les outils n’étaient pas nécessaires pour les tâches. Cette configuration a permis un petit mais réel gain sur les scores de honeypot.

Ne vous contentez pas de lire l’actualité crypto. Comprenez-la. Abonnez-vous à notre newsletter. C’est gratuit.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler