今天,Anthropic 发布了他们最危险的模型


算是吧。这个模型叫 Mythos,它在发现和攻破软件方面如此出色,以至于 Anthropic 花了两个月的时间,只让网络安全防御者和基础设施公司接触它。
你今天得到的是 Fable 5,带有一个过滤器,可以阻止网络安全、生物学和化学问题,并将这些问题转交给较弱的模型。
然而,这个过滤器只在不到 5% 的会话中启动。所以 95% 的时间里,你都在和他们说过太危险而不允许使用的那个模型对话。
Anthropic 的红队花了 1000 小时试图突破安全措施,但都没有成功。
但互联网的时间远远超过 1000 小时,而且有更充分的理由去尝试。历史上每个被锁定的模型都被破解了,通常在几天内。
接下来的几周将会揭示真相。
查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论