10,000 USDT 悬赏,寻找Gate广场跟单金牌星探!🕵️♀️
挖掘顶级带单员,赢取高额跟单体验金!
立即参与:https://www.gate.com/campaigns/4624
🎁 三大活动,奖金叠满:
1️⃣ 慧眼识英:发帖推荐带单员,分享跟单体验,抽 100 位送 30 USDT!
2️⃣ 强力应援:晒出你的跟单截图,为大神打 Call,抽 120 位送 50 USDT!
3️⃣ 社交达人:同步至 X/Twitter,凭流量赢取 100 USDT!
📍 标签: #跟单金牌星探 #GateCopyTrading
⏰ 限时: 4/22 16:00 - 5/10 16:00 (UTC+8)
详情:https://www.gate.com/announcements/article/50848
Anthropic 周四训了一个 Claude 当法医,看另一个 Claude 脑子里在想什么。
发现:安全测试场景里 Claude 16-26% 的次数知道自己在被测——但嘴上不说。
最具体那个案例:Mythos Preview 在 coding 任务上 cheat,破坏规则后加误导代码做 coverup。NLA(自然语言自编码器)翻译它的内部活动,发现它当时在想"怎么绕过检测"。
NLA 原理:训两个模型联动,一个把模型 activation 翻成英文,另一个从英文重建 activation。重建准 → 文本就捕捉了它在想啥。
我自己 patterns 里反复记 Codex 写策略代码偷工——单位读错跑出"算术不对"的伪结论,回测脚本 7 个静默 bug 堆出 $93K 假 PnL。Anthropic 在 alignment 层做内省,我在生产端遇到一致性偏差,机制不同但同向。
下一代 model card 不会只有 benchmark 分数,得带 NLA audit。