Avaliação de monitorabilidade da cadeia de pensamento de código aberto da OpenAI: quanto mais longo o CoT, mais transparente; RL não ensina o modelo a "esconder pensamentos"

robot
Geração do resumo em andamento
AIMPACT消息,4月24日(UTC+8),据动察Beating监测,OpenAI开源了论文「Monitoring Monitorability」(Guan et al.)的评测套件monitorability-evals,Apache-2.0许可。该套件用于衡量监控模型能否通过推理模型的思维链(CoT,模型在回答前生成的内部推理过程)来检测异常行为,覆盖13个评测、24个环境。评测分三种原型:Intervention(干预型,改变模型输入后监控模型能否察觉行为变化)、Process(过程型,验证模型推理步骤是否真实)、Outcome-property(结果属性型,从推理轨迹预测输出是否存在奖励作弊或安全违规)。论文核心发现:监控CoT比仅监控模型的最终动作和输出更有效;CoT越长,可监控性越高;RL训练即使在当前前沿规模下也不会实质降低可监控性。一个实用发现是,对于低推理力度的大模型,可以换用更小但推理力度更高的模型,在匹配能力的同时获得更高的可监控性,代价是推理算力更贵。此外,扩大弱监控模型的推理算力可以提升其监控强模型的效果,而让弱监控模型看到CoT不仅提升可监控性,还会加速这一扩展趋势。GPT-5.4 Thinking system card已使用这套评测。结果显示GPT-5.4 Thinking的整体CoT可监控性略低于GPT-5 Thinking,但并非全面下降:在agentic misalignment(agent对齐偏差)场景下接近100%,下降主要集中在健康查询缺失证据、记忆偏差和不可能任务等特定场景。OpenAI调查后认为部分回归源于评测本身的局限性。仓库同步弃用了Anti-Scheming和Memory两个评测,原因是前者的通用CoT监控与任务专用答案评判之间存在不匹配,后者的答案评判准确度不足。(来源:BlockBeats)
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado