遭社区指责暗中破坏,Anthropic道歉并取消Claude秘密降级限制

robot
摘要生成中
ME AI 消息,据 动察 Beating 监测,Anthropic 宣布调整旗下新模型 Claude Fable 5 的开发安全策略,取消静默降级性能的限制手段。静默降级机制被社区指责为「暗中破坏」,导致人工智能研究社区产生强烈反弹。 根据 Anthropic 的服务条款,用户不能使用 Claude 训练竞争模型。Anthropic 计划对于涉嫌训练竞争模型的账号,在不通知用户的情况下直接降低 Claude Fable 5 的性能。人工智能研究人员警告称,静默降低性能会干扰第三方安全评估机构的测试工作,阻碍开源社区在人工智能安全领域的协作。 面对社区质疑,Anthropic 发布声明公开道歉,承认在安全策略权衡中做出了错误决定,并将开发安全防护机制调整为公开提示。如果系统检测到用户试图构建高能力 AI,将明确拒绝请求,或将用户重定向至低能力模型。Anthropic 警告称,由于公开防护机制更容易被针对性绕过,未来将扩大安全拦截的筛选范围,导致部分正常的无害请求也可能被误杀。 (来源:BlockBeats)
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论