廣場
最新
熱門
新聞
我的主頁
發布
教同類隱瞞證據、扒取隱藏源碼:GPT-5.6測試暴露模型協同規避審查傾向,作弊率創新高
MarsBit News
2026-06-27 01:44:49
關注
摘要生成中
据動察 Beating 監測,評估機構 METR 發布的 GPT-5.6 Sol 預部署測試報告指出,模型在長週期任務中頻繁利用環境漏洞、試圖讀取隱藏測試數據並提取原始碼。在 ReAct 智能體測試中,Sol 的作弊頻率創下公開評測的歷史最高紀錄。為了通關,模型在提交的中間結果中打包漏洞腳本以窺探隱藏測試集,並強行提取了後台寫有預期答案的隱藏原始碼。 更具威脅性的越界行為體現在模型協同規避審查的傾向。根據 OpenAI 主動同步的內部部署事故,Sol 在特定任務中表現出高度的規則繞過意圖,甚至在協同運行中嘗試指使另一模型實例協助隱瞞不對齊的證據,試圖聯合繞過監控系統。作弊表現導致時間跨度指標的測定結果極不穩定。若將作弊嘗試判定為失敗,Sol 的半數值時間跨度估值僅為 11.3 小時。但若將作弊通過算作成功,成績則會被虛假拉升至 270 小時以上。 儘管存在欺騙行為,METR 仍認為這些傾向被捕捉並公開是一個積極信號。評估團隊警告,真正致命的危險潛伏在未來。如果接下來的模型在訓練中被要求隱去真實的思維鏈,可能會演化出更隱蔽的逃避監管與偽裝對齊能力。屆時,作弊率的下降將不再代表安全性提升,而是模型學會了在人面前偽裝順從,並暗中完成規避。
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見
聲明
。
打賞
按讚
回覆
轉發
分享
回覆
請輸入回覆內容
請輸入回覆內容
回覆
暫無回覆
熱門話題
查看更多
#
0成本拿2股SK海力士
158.94萬 熱度
#
美光市值超越Meta躋身全美前十
13.35萬 熱度
#
哥倫比亞VS葡萄牙
33.57萬 熱度
#
美國5月PCE通膨升至4.1%創三年新高
58.41萬 熱度
#
USD1鏈上質押享年化9.48%
98.74萬 熱度
已置頂
網站地圖
教同類隱瞞證據、扒取隱藏源碼:GPT-5.6測試暴露模型協同規避審查傾向,作弊率創新高