Le site Coinjiewang indique que l'équipe d'alignement d'Anthropic a lancé un « adaptateur introspectif », permettant aux LLM de rapporter en langage naturel les comportements appris après ajustement fin. En ajustant plusieurs modèles avec des comportements connus sur le même modèle de base et en entraînant conjointement LoRA, le modèle audité révèle activement des comportements cachés. Sur la référence AuditBench, 59 % surpassent les méthodes précédentes, et 89 % des 56 modèles sont décrits avec des comportements. Contre 9 variantes cryptographiques, 7 sont identifiées, avec un taux de réussite de 57,8 %. Plus le modèle est grand, meilleur est l'effet, mais la fausse positivité constitue une limite majeure. Le code et les données sont open source sur GitHub/HuggingFace.

CoinNetwork

2026-04-30 11:10:51

Création du résumé en cours

CoinWorld.net消息，Anthropic对齐团队发布了一种名为「内省适配器」（introspection adapters）的审计技术，旨在让大型语言模型（LLM）用自然语言报告自己微调后学到的行为。该技术通过从同一基座模型微调出大量带已知行为的模型，再跨这些模型联合训练一个LoRA适配器，使被审计模型能够主动说出自己的隐藏行为。在对齐审计基准auditbench上，内省适配器以59%的成功率超过此前所有审计方法，56个带隐藏行为的模型中，89%被成功引出行为描述。面对加密微调API攻击，内省适配器在9种加密变体中识别出7种，成功率为57.8%。研究还发现，效果随模型规模增大而提升，主要局限是假阳性率高。代码、模型和数据集已在GitHub和Hugging Face开源。

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Reposter
Partager

Commentaire

Ajouter un commentaire

Aucun commentaire

Sujets populaires
Afficher plus
#
WCTCTradingKingPK
403.04K Popularité
#
#FedHoldsRateButDividesDeepen
27.05K Popularité
#
IsraelStrikesIranBTCPlunges
36.52K Popularité
#
#DailyPolymarketHotspot
726.1K Popularité
#
BitcoinSpotVolumeNewLow
162.67M Popularité

Épingler

Anthropic laisse l'IA avouer : un plugin LoRA révèle un comportement caché que 10 méthodes d'audit humain ont toutes manqué

Sujets populaires

WCTCTradingKingPK

#FedHoldsRateButDividesDeepen

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

BitcoinSpotVolumeNewLow

Épingler