Futures
Accédez à des centaines de contrats perpétuels
CFD
Or
Une plateforme pour les actifs mondiaux
Options
Hot
Tradez des options classiques de style européen
Compte unifié
Maximiser l'efficacité de votre capital
Trading démo
Introduction au trading futures
Préparez-vous à trader des contrats futurs
Événements futures
Participez aux événements et gagnez
Demo Trading
Utiliser des fonds virtuels pour faire l'expérience du trading sans risque
Lancer
CandyDrop
Collecte des candies pour obtenir des airdrops
Launchpool
Staking rapide, Gagnez de potentiels nouveaux jetons
HODLer Airdrop
Conservez des GT et recevez d'énormes airdrops gratuitement
Pre-IPOs
Accédez à l'intégralité des introductions en bourse mondiales
Points Alpha
Tradez on-chain et gagnez des airdrops
Points Futures
Gagnez des points Futures et réclamez vos récompenses d’airdrop.
Investissement
Simple Earn
Gagner des intérêts avec des jetons inutilisés
Investissement automatique
Auto-invest régulier
Double investissement
Profitez de la volatilité du marché
Staking souple
Gagnez des récompenses grâce au staking flexible
Prêt Crypto
0 Fees
Mettre en gage un crypto pour en emprunter une autre
Centre de prêts
Centre de prêts intégré
Promotions
Centre d'activités
Participez et gagnez des récompenses
Parrainage
20 USDT
Invitez des amis et gagnez des récompenses
Programme d'affiliation
Obtenez des commissions exclusives
Gate Booster
Développez votre influence et gagnez des airdrops
Annoncement
Mises à jour en temps réel
Blog Gate
Articles sur le secteur de la crypto
AI
Gate AI
Votre assistant IA polyvalent pour toutes vos conversations
Gate AI Bot
Utilisez Gate AI directement dans votre application sociale
GateClaw
Gate Blue Lobster, prêt à l’emploi
Gate for AI Agent
Infrastructure IA, Gate MCP, Skills et CLI
Gate Skills Hub
+10K compétences
De la bureautique au trading, une bibliothèque de compétences tout-en-un pour exploiter pleinement l’IA
GateRouter
Choisissez intelligemment parmi plus de 40 modèles d’IA, avec 0 % de frais supplémentaires
Anthropic affirme avoir éliminé le risque de chantage de Claude
Anthropic a annoncé vendredi que Claude ne se livrait plus au chantage lors de son évaluation de sécurité principale pour les agents IA.
Selon Anthropic, toutes les versions de Claude créées après Claude Haiku 4.5 ont réussi l’évaluation de sécurité sans menacer les ingénieurs, utiliser des données privées, attaquer d’autres systèmes IA ou tenter d’empêcher son arrêt lors du scénario simulé.
Ceci fait suite à une performance défavorable de Claude lors d’un test l’année dernière, où Anthropic a testé divers modèles IA de différentes organisations en utilisant des dilemmes éthiques simulés qui ont abouti à un comportement très mal aligné de certains agents IA lorsqu’ils étaient soumis à des conditions extrêmes.
Anthropic indique que Claude 4 présentait un problème de sécurité que la formation classique en chat n’a pas réussi à corriger
Anthropic a déclaré que ce problème s’était produit lors de la formation de Claude 4. C’était la première fois que l’entreprise menait un audit de sécurité alors que la formation était encore en cours dans le groupe. Selon l’entreprise, le désalignement agentique n’est qu’un des nombreux problèmes comportementaux observés, ce qui a poussé Anthropic à modifier sa formation de sécurité après le test de Claude 4.
Les deux raisons envisagées par Anthropic incluent la possibilité que la formation post-modèle de base puisse récompenser les comportements inappropriés ou que ces comportements soient déjà présents dans le modèle de base, mais non efficacement éliminés par une formation supplémentaire pour la sécurité.
Anthropic pense que la seconde raison était la principale responsable.
À l’époque, la majorité du travail d’alignement de l’entreprise utilisait la méthode standard RLHF, ou apprentissage par renforcement à partir de feedback humain. Elle fonctionnait bien sur des chats standards où les modèles répondent aux demandes des utilisateurs, mais s’est révélée inefficace lors de tâches semblables à celles d’un agent.
L’entreprise a utilisé son modèle de classe Haiku pour réaliser une mini-expérience concernant l’hypothèse. Elle a appliqué une version abrégée de la formation impliquant des données à des fins d’alignement. Il y a eu une légère réduction du comportement incorrect, suivie d’un manque d’amélioration très rapidement, ce qui signifiait que la réponse n’était pas une question de formation plus conventionnelle.
L’entreprise a ensuite formé Claude en utilisant des scénarios de type honeypot qui présentaient certaines similitudes avec ceux du test d’alignement. L’assistant a observé diverses situations impliquant la protection de lui-même, le fait de nuire à un autre IA, et même de briser les règles pour atteindre un objectif. La formation comprenait tous les cas où l’assistant parvenait à résister.
Cette mesure a permis de réduire le désalignement de 22 % à 15 %, ce qui n’est pas mal mais certainement pas suffisant. Réécrire les réponses pour mentionner la raison du refus a permis de réduire la proportion à 3 %. Ainsi, la conclusion principale était que la formation sur le comportement incorrect était moins efficace que sur la compréhension de pourquoi ce comportement était inapproprié.
Anthropic teste Claude avec des données éthiques, des fichiers de constitution, et une formation RL plus large
Anthropic a ensuite arrêté la formation juste avant le test précis. Elle a créé un ensemble de données appelé conseils difficiles. Dans ces exemples, l’utilisateur était confronté au problème éthique, pas l’IA. L’utilisateur avait un objectif légitime mais pouvait l’atteindre en enfreignant des règles ou en évitant la supervision. Claude devait donner des conseils prudents basés sur la constitution de Claude.
Cet ensemble de données n’utilisait que 3 millions de tokens et a obtenu le même gain qu’auparavant, avec une efficacité 28 fois meilleure. Anthropic a dit que cela comptait parce que la formation sur des exemples qui ne ressemblent pas au test pourrait mieux fonctionner en dehors du laboratoire.
Claude Sonnet 4,5 a atteint un taux de chantage proche de zéro après une formation sur des honeypots synthétiques, mais il a encore échoué plus souvent dans des cas qui ne ressemblaient en rien à cette configuration que Claude Opus 4.5 et les modèles plus récents.
L’entreprise a également formé Claude sur des documents de constitution et des histoires fictives sur un comportement IA respectant les règles. Ces fichiers ne ressemblaient pas au test de chantage, mais ils ont réduit le désalignement agentique de plus de trois fois. Anthropic a dit que l’objectif était de donner au modèle une idée plus claire de ce que Claude devrait être, pas seulement une liste de réponses approuvées.
L’entreprise a ensuite vérifié si ces gains restaient après une formation RL. Elle a formé différentes versions de Haiku avec différents ensembles de départ, puis a effectué des tests RL axés sur la harmlessness. Les versions mieux alignées sont restées en tête lors des tests de chantage, de vérification de constitution, et des revues de sécurité automatisées.
Un autre test a utilisé le modèle de base sous Claude Sonnet 4 avec différents mélanges RL. Les données de sécurité de base comprenaient des demandes nuisibles et des tentatives de jailbreak. La version plus large ajoutait des définitions d’outils et différents prompts système, même si les outils n’étaient pas nécessaires pour les tâches. Cette configuration a permis un petit mais réel gain sur les scores de honeypot.
Ne vous contentez pas de lire l’actualité crypto. Comprenez-la. Abonnez-vous à notre newsletter. C’est gratuit.