遭社區指責暗中破壞,Anthropic道歉並取消Claude秘密降級限制

根據動察 Beating 監測,Anthropic 宣布調整旗下新模型 Claude Fable 5 的開發安全策略,取消靜默降級性能的限制手段。靜默降級機制被社群指責為「暗中破壞」,導致人工智慧研究社群產生強烈反彈。

根據 Anthropic 的服務條款,使用者不能用 Claude 訓練競爭模型。Anthropic 計畫對於涉嫌訓練競爭模型的帳號,在不通知用戶的情況下直接降低 Claude Fable 5 的性能。人工智慧研究人員警告稱,靜默降低性能會干擾第三方安全評估機構的測試工作,阻礙開源社群在人工智慧安全領域的協作。

面對社群質疑,Anthropic 發布聲明公開道歉,承認在安全策略權衡中做出了錯誤決定,並將開發安全防護機制調整為公開提示。如果系統偵測到用戶試圖構建高能力 AI,將明確拒絕請求,或將用戶重定向至低能力模型。Anthropic 警告稱,由於公開防護機制更容易被針對性繞過,未來將擴大安全攔截的篩選範圍,導致部分正常的無害請求也可能被誤殺。
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆