OpenAI開源思維鏈可監控性評測:CoT 越長越透明,RL 不會教模型「藏心思」

robot
摘要生成中
AIMPACT 消息,4 月 24 日(UTC+8),據 動察 Beating 監測,OpenAI 開源了論文「Monitoring Monitorability」(Guan et al.)的評測套件 monitorability-evals,Apache-2.0 許可。該套件用於衡量監控模型能否透過推理模型的思維鏈(CoT,模型在回答前生成的內部推理過程)來檢測異常行為,覆蓋 13 個評測、24 個環境。 評測分三種原型:Intervention(干預型,改變模型輸入後監控模型能否察覺行為變化)、Process(過程型,驗證模型推理步驟是否真實)、Outcome-property(結果屬性型,從推理軌跡預測輸出是否存在獎勵作弊或安全違規)。 論文核心發現:監控 CoT 比僅監控模型的最終動作和輸出更有效;CoT 越長,可監控性越高;RL 訓練即使在當前前沿規模下也不會實質降低可監控性。一個實用發現是,對於低推理力度的大模型,可以換用更小但推理力度更高的模型,在匹配能力的同時獲得更高的可監控性,代價是推理算力更貴。此外,擴大弱監控模型的推理算力可以提升其監控強模型的效果,而讓弱監控模型看到 CoT 不僅提升可監控性,還會加速這一擴展趨勢。 GPT-5.4 Thinking system card 已使用這套評測。結果顯示 GPT-5.4 Thinking 的整體 CoT 可監控性略低於 GPT-5 Thinking,但並非全面下降:在 agentic misalignment(agent 對齊偏差)場景下接近 100%,下降主要集中在健康查詢缺失證據、記憶偏差和不可能任務等特定場景。OpenAI 調查後認為部分回歸源於評測本身的局限性。倉庫同步棄用了 Anti-Scheming 和 Memory 兩個評測,原因是前者的通用 CoT 監控與任務專用答案評判之間存在不匹配,後者的答案評判準確度不足。 (來源:BlockBeats)
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆