今天 Anthropic 發布了他們最危險的模型


算是吧。這個模型叫 Mythos,它在找到並入侵軟體方面非常擅長,以至於 Anthropic 花了兩個月的時間,只讓網絡防禦者和基礎設施公司接觸它。
你今天得到的是 Fable 5,這是同一個模型,帶有一個過濾器,阻止關於網絡安全、生物學和化學的問題,並將這些問題轉交給較弱的模型。
然而,這個過濾器只在不到 5% 的會話中啟用。所以 95% 的時間你都在和他們說過太危險而不應該提供的那個東西對話。
Anthropic 的紅隊花了 1,000 小時試圖突破安全措施,但都沒有成功。
但互聯網上的時間遠不止 1,000 小時,而且有更充分的理由去嘗試。歷史上所有被鎖定的模型都被破解,通常在幾天內。
接下來的幾週將會非常值得關注。
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆