廣場
最新
熱門
新聞
我的主頁
發布
Anthropic讓AI自己招供:一個LoRA插件審出人類10種方法都漏掉的隱藏行為
币 界 网
2026-04-30 11:10:51
關注
摘要生成中
币界網消息,Anthropic對齊團隊發布了一種名為「內省適配器」(introspection adapters)的審計技術,旨在讓大型語言模型(LLM)用自然語言報告自己微調後學到的行為。該技術通過從同一基座模型微調出大量帶已知行為的模型,再跨這些模型聯合訓練一個LoRA適配器,使被審計模型能夠主動說出自己的隱藏行為。在對齊審計基準auditbench上,內省適配器以59%的成功率超過此前所有審計方法,56個帶隱藏行為的模型中,89%被成功引出行為描述。面對加密微調API攻擊,內省適配器在9種加密變體中識別出7種,成功率為57.8%。研究還發現,效果隨模型規模增大而提升,主要局限是假陽性率高。代碼、模型和數據集已在GitHub和Hugging Face開源。
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見
聲明
。
打賞
按讚
回覆
轉發
分享
回覆
請輸入回覆內容
請輸入回覆內容
回覆
暫無回覆
熱門話題
查看更多
#
0成本拿2股SK海力士
24.26萬 熱度
#
預測世界盃法國VS瑞典
53.62萬 熱度
#
Solana生態ANSEM暴漲
2198.15萬 熱度
#
Strategy擬回購股票漲超12%
221.07萬 熱度
#
USD1鏈上質押享年化7.66%
101.84萬 熱度
已置頂
網站地圖
Anthropic讓AI自己招供:一個LoRA插件審出人類10種方法都漏掉的隱藏行為