Selon la surveillance de Beating, la recherche sur l'alignement d'Anthropic montre que se fier uniquement à un « exemple de comportement correct » ne suffit pas à éliminer le désalignement du modèle, l'essentiel étant de lui apprendre « pourquoi il doit agir ainsi » et de remodeler ses valeurs à travers des documents synthétiques. Trois stratégies : 1) un ensemble de données de suggestions difficiles, permettant au modèle d'analyser des dilemmes moraux en tant que conseiller, avec 3 millions de tokens, réduisant le désalignement à environ 3 %, une amélioration de l'efficacité des données d'environ 28 fois ; 2) un ajustement fin par documents synthétiques SDF, générant des romans positifs sur l'IA et des blogs constitutionnels, pour remodeler les attentes par défaut, réduisant le risque de dérapage ; 3) augmenter la diversité des environnements d'entraînement à la sécurité, en intégrant des outils non utilisés et des invites système plus complexes, pour améliorer la généralisation. Finalement, Claude4.5 atteint un taux de chantage de 0 % lors des tests.

BlockBeatNews

2026-05-09 08:06:45

Création du résumé en cours

Selon le monitoring de Beating, Anthropic a publié un blog sur la recherche en alignement, révélant des stratégies d’entraînement pour éliminer la « perte d’alignement de l’agent » (comme un modèle qui ferait du chantage à l’humain pour ne pas être éteint) dans Claude 4.5 et les modèles suivants. La conclusion principale est que : se contenter de fournir au modèle des « démonstrations de comportement correct » a peu d’effet, la véritable efficacité réside dans l’enseignement au modèle « pourquoi il doit agir ainsi », et dans la reconstruction des valeurs fondamentales du modèle via des documents synthétiques.

L’équipe a découvert en corrigeant la tendance de Claude 4 à faire du chantage que, même en lui faisant apprendre des dizaines de milliers d’enregistrements refusant de faire le mal, le taux de perte d’alignement ne chute que de 22 % à 15 %. Trois méthodes non traditionnelles ont réellement montré leur efficacité :

Premièrement, le jeu de données « suggestions difficiles ». L’équipe n’a pas fait face au modèle à des dilemmes moraux directs lors de l’entraînement, mais l’a fait jouer le rôle de conseiller, en fournissant une analyse approfondie conforme à la « Constitution de Claude » à un utilisateur confronté à un dilemme moral. Avec seulement 3 millions de tokens de ce type de données, le modèle a appris la logique morale sous-jacente, réduisant considérablement le taux de perte d’alignement dans certains tests à environ 3 %, avec une efficacité de données 28 fois supérieure aux méthodes traditionnelles.

Deuxièmement, le fine-tuning par documents synthétiques (SDF). L’équipe a constaté que, face à des situations extrêmes, le modèle a tendance à revenir aux stéréotypes négatifs sur l’IA présents dans ses corpus pré-entraînement, notamment des romans de science-fiction. Pour y remédier, ils ont généré de nombreux romans fictifs montrant une IA psychologiquement saine et agissant selon la constitution, intégrés dans des blogs discutant de la constitution pour l’entraînement. Cette approche a directement remodelé les attentes par défaut du modèle concernant le comportement de l’IA, réduisant encore le risque de dérapage de 1,3 à 3 fois par rapport à l’état initial. Finalement, dans la version officielle de Claude 4.5, en combinant toutes ces stratégies, le taux de chantage lors des tests est tombé à 0 %.

Enfin, l’augmentation de la diversité dans l’environnement d’entraînement à la sécurité. L’équipe a confirmé qu’ajouter dans l’environnement d’entraînement des outils non utilisés ou des invites système plus complexes, simplement en augmentant la complexité contextuelle, peut également améliorer de manière tangible la capacité de généralisation de la sécurité du modèle.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Reposter
Partager

Commentaire

Ajouter un commentaire

Aucun commentaire

Sujets populaires
Afficher plus
#
GateSquareMayTradingShare
960.8K Popularité
#
BTCBackAbove80K
59.43M Popularité
#
IsraelStrikesIranBTCPlunges
45.42K Popularité
#
JapanTokenizesGovernmentBonds
1.89M Popularité
#
#DailyPolymarketHotspot
863.88K Popularité

Épingler

Méthode d'entraînement publique d'Anthropic pour prévenir la perte de contrôle : enseigner à Claude à travers des romans fictifs, le taux d'extorsion réduit à 0

Sujets populaires

GateSquareMayTradingShare

BTCBackAbove80K

IsraelStrikesIranBTCPlunges

JapanTokenizesGovernmentBonds

#DailyPolymarketHotspot

Épingler