广场
最新
热门
资讯
我的主页
发布
OpenAI开源思维链可监控性评测:CoT越长越透明,RL不会教模型「藏心思」
ME News
2026-07-04 02:48:18
关注
摘要生成中
AIMPACT 消息,4 月 24 日(UTC+8),据 动察 Beating 监测,OpenAI 开源了论文「Monitoring Monitorability」(Guan et al.)的评测套件 monitorability-evals,Apache-2.0 许可。该套件用于衡量监控模型能否通过推理模型的思维链(CoT,模型在回答前生成的内部推理过程)来检测异常行为,覆盖 13 个评测、24 个环境。 评测分三种原型:Intervention(干预型,改变模型输入后监控模型能否察觉行为变化)、Process(过程型,验证模型推理步骤是否真实)、Outcome-property(结果属性型,从推理轨迹预测输出是否存在奖励作弊或安全违规)。 论文核心发现:监控 CoT 比仅监控模型的最终动作和输出更有效;CoT 越长,可监控性越高;RL 训练即使在当前前沿规模下也不会实质降低可监控性。一个实用发现是,对于低推理力度的大模型,可以换用更小但推理力度更高的模型,在匹配能力的同时获得更高的可监控性,代价是推理算力更贵。此外,扩大弱监控模型的推理算力可以提升其监控强模型的效果,而让弱监控模型看到 CoT 不仅提升可监控性,还会加速这一扩展趋势。 GPT-5.4 Thinking system card 已使用这套评测。结果显示 GPT-5.4 Thinking 的整体 CoT 可监控性略低于 GPT-5 Thinking,但并非全面下降:在 agentic misalignment(agent 对齐偏差)场景下接近 100%,下降主要集中在健康查询缺失证据、记忆偏差和不可能任务等特定场景。OpenAI 调查后认为部分回归源于评测本身的局限性。仓库同步弃用了 Anti-Scheming 和 Memory 两个评测,原因是前者的通用 CoT 监控与任务专用答案评判之间存在不匹配,后者的答案评判准确度不足。 (来源:BlockBeats)
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见
声明
。
赞赏
点赞
评论
转发
分享
评论
请输入评论内容
请输入评论内容
评论
暂无评论
热门话题
查看更多
#
gStocks代币化股票上线
476.33万 热度
#
非农爆冷打压加息预期
104.98万 热度
#
预测世界杯巴西VS挪威
18.96万 热度
#
ETH突破1700
1.52亿 热度
#
Meta卖算力引发存储股大跌
140.45万 热度
置顶
网站地图
OpenAI开源思维链可监控性评测:CoT越长越透明,RL不会教模型「藏心思」