遭社區指責暗中破壞,Anthropic道歉並取消Claude秘密降級限制

robot
摘要生成中
ME AI 消息,據 動察 Beating 監測,Anthropic 宣布調整旗下新模型 Claude Fable 5 的開發安全策略,取消靜默降級性能的限制手段。靜默降級機制被社區指責為「暗中破壞」,導致人工智能研究社區產生強烈反彈。 根據 Anthropic 的服務條款,用戶不能使用 Claude 訓練競爭模型。Anthropic 計劃對於涉嫌訓練競爭模型的帳號,在不通知用戶的情況下直接降低 Claude Fable 5 的性能。人工智能研究人員警告稱,靜默降低性能會干擾第三方安全評估機構的測試工作,阻礙開源社區在人工智能安全領域的協作。 面對社區質疑,Anthropic 發布聲明公開道歉,承認在安全策略權衡中做出了錯誤決定,並將開發安全防護機制調整為公開提示。如果系統檢測到用戶試圖構建高能力 AI,將明確拒絕請求,或將用戶重定向至低能力模型。Anthropic 警告稱,由於公開防護機制更容易被針對性繞過,未來將擴大安全攔截的篩選範圍,導致部分正常的無害請求也可能被誤殺。 (來源:BlockBeats)
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆