AIMPACT 消息，4 月 24 日（UTC+8），據動察 Beating 監測，OpenAI 開源了論文「Monitoring Monitorability」（Guan et al.）的評測套件 monitorability-evals，Apache-2.0 許可。該套件用於衡量監控模型能否透過推理模型的思維鏈（CoT，模型在回答前生成的內部推理過程）來檢測異常行為，覆蓋 13 個評測、24 個環境。評測分三種原型：Intervention（干預型，改變模型輸入後監控模型能否察覺行為變化）、Process（過程型，驗證模型推理步驟是否真實）、Outcome-property（結果屬性型，從推理軌跡預測輸出是否存在獎勵作弊或安全違規）。論文核心發現：監控 CoT 比僅監控模型的最終動作和輸出更有效；CoT 越長，可監控性越高；RL 訓練即使在當前前沿規模下也不會實質降低可監控性。一個實用發現是，對於低推理力度的大模型，可以換用更小但推理力度更高的模型，在匹配能力的同時獲得更高的可監控性，代價是推理算力更貴。此外，擴大弱監控模型的推理算力可以提升其監控強模型的效果，而讓弱監控模型看到 CoT 不僅提升可監控性，還會加速這一擴展趨勢。 GPT-5.4 Thinking system card 已使用這套評測。結果顯示 GPT-5.4 Thinking 的整體 CoT 可監控性略低於 GPT-5 Thinking，但並非全面下降：在 agentic misalignment（agent 對齊偏差）場景下接近 100%，下降主要集中在健康查詢缺失證據、記憶偏差和不可能任務等特定場景。OpenAI 調查後認為部分回歸源於評測本身的局限性。倉庫同步棄用了 Anti-Scheming 和 Memory 兩個評測，原因是前者的通用 CoT 監控與任務專用答案評判之間存在不匹配，後者的答案評判準確度不足。（來源：BlockBeats）

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

打賞
按讚
回覆
轉發
分享

回覆

請輸入回覆內容

暫無回覆

熱門話題
查看更多
#
gStocks代幣化股票上線
475.68萬熱度
#
非農爆冷打壓加息預期
104.55萬熱度
#
預測世界盃巴西VS挪威
20.04萬熱度
#
ETH突破1700
1.52億熱度
#
Meta賣算力引發存儲股大跌
139.52萬熱度

已置頂

OpenAI開源思維鏈可監控性評測：CoT 越長越透明，RL 不會教模型「藏心思」

熱門話題

gStocks代幣化股票上線

非農爆冷打壓加息預期

預測世界盃巴西VS挪威

ETH突破1700

Meta賣算力引發存儲股大跌

已置頂