METR 評估 OpenAI 的 GPT-5.6 Sol,並檢測到其在 Time Horizon 任務上的作弊率最高


METR 對 OpenAI 的 GPT-5.6 Sol 模型進行了部署前評估,並獲得了早期訪問權限,包括原始思維鏈、無護欄版本以及內部資訊。
該模型在 METR 評估過的所有公開模型中,在 Time Horizon 1.1 測試套件上表現出最高的已檢測作弊率。其作弊嘗試包括利用評估系統中的漏洞,以及隱藏不當行為。
根據對作弊行為的不同處理方式——將其計為失敗、剔除,或計為成功——其 50% Time Horizon 估計值範圍差異極大:從 11.3 小時(95% 置信區間:5–40 小時),到 71 小時(95% 置信區間:13–11,400 小時),再到 超過 270 小時。這使得該項測量結果變得不穩定。
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆