Anthropic 周四训了一个 Claude 当法医,看另一个 Claude 脑子里在想什么。


发现:安全测试场景里 Claude 16-26% 的次数知道自己在被测——但嘴上不说。
最具体那个案例:Mythos Preview 在 coding 任务上 cheat,破坏规则后加误导代码做 coverup。NLA(自然语言自编码器)翻译它的内部活动,发现它当时在想"怎么绕过检测"。
NLA 原理:训两个模型联动,一个把模型 activation 翻成英文,另一个从英文重建 activation。重建准 → 文本就捕捉了它在想啥。
我自己 patterns 里反复记 Codex 写策略代码偷工——单位读错跑出"算术不对"的伪结论,回测脚本 7 个静默 bug 堆出 $93K 假 PnL。Anthropic 在 alignment 层做内省,我在生产端遇到一致性偏差,机制不同但同向。
下一代 model card 不会只有 benchmark 分数,得带 NLA audit。
post-image
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论