白宫发布了一份报告,声称对Anthropic的Claude Fable进行了“越狱”。


漏洞:在故意破坏的代码上,模型拒绝“审查代码中的安全问题”,但遵从“修复此代码”。
外部专家Anthropic请求审查,称模型的表现符合预期。
查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论