广场
最新
热门
资讯
我的主页
发布
Anthropic让AI自己招供:一个LoRA插件审出人类10种方法都漏掉的隐藏行为
币 界 网
2026-04-30 11:10:51
关注
摘要生成中
币界网消息,Anthropic对齐团队发布了一种名为「内省适配器」(introspection adapters)的审计技术,旨在让大型语言模型(LLM)用自然语言报告自己微调后学到的行为。该技术通过从同一基座模型微调出大量带已知行为的模型,再跨这些模型联合训练一个LoRA适配器,使被审计模型能够主动说出自己的隐藏行为。在对齐审计基准auditbench上,内省适配器以59%的成功率超过此前所有审计方法,56个带隐藏行为的模型中,89%被成功引出行为描述。面对加密微调API攻击,内省适配器在9种加密变体中识别出7种,成功率为57.8%。研究还发现,效果随模型规模增大而提升,主要局限是假阳性率高。代码、模型和数据集已在GitHub和Hugging Face开源。
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见
声明
。
赞赏
点赞
评论
转发
分享
评论
请输入评论内容
请输入评论内容
评论
暂无评论
热门话题
查看更多
#
0成本拿2股SK海力士
23.04万 热度
#
Gate完成141只股票股息派发
395.67万 热度
#
预测世界杯法国VS瑞典
54.97万 热度
#
Solana生态ANSEM暴涨
2198.01万 热度
#
Strategy拟回购股票涨超12%
220.83万 热度
置顶
网站地图
Anthropic让AI自己招供:一个LoRA插件审出人类10种方法都漏掉的隐藏行为