OpenAIが思考連鎖の可監視性評価をオープンソース化:CoTが長いほど透明性が高く、RLはモデルに「心を隠す」ことを教えない

robot
概要作成中
AIMPACT 報道、4月24日(UTC+8)、動察 Beating のモニタリングによると、OpenAI は論文「Monitoring Monitorability」(Guan et al.)の評価スイート monitorability-evals を Apache-2.0 ライセンスでオープンソース化しました。このスイートは、監視モデルが推論モデルの思考連鎖(CoT、モデルが回答前に生成する内部推論プロセス)を通じて異常行動を検出できるかを測定するもので、13の評価、24の環境をカバーします。
評価は3つのプロトタイプに分かれます:Intervention(介入型、モデル入力を変更した後に監視モデルが行動変化を認識できるか)、Process(プロセス型、モデルの推論ステップが真実かどうかを検証)、Outcome-property(結果属性型、推論軌跡から出力に報酬チートや安全違反が存在するかを予測)。
論文の中心的発見:CoTを監視することは、モデルの最終的な行動と出力のみを監視するよりも効果的である;CoTが長いほど、監視可能性が高まる;RL訓練は現在の最先端の規模でも実質的に監視可能性を低下させない。実用的な発見として、低い推論力の大規模モデルに対しては、より小さく推論力の高いモデルに置き換え、能力を一致させつつより高い監視可能性を得ることができるが、代償として推論計算コストが高くなる。さらに、弱い監視モデルの推論計算力を拡大することで、強いモデルを監視する効果を向上させることができ、弱い監視モデルにCoTを見せることは監視可能性を高めるだけでなく、この拡大傾向を加速する。
GPT-5.4 Thinking system card はすでにこの評価スイートを使用しています。結果によると、GPT-5.4 Thinking の全体的な CoT 監視可能性は GPT-5 Thinking よりわずかに低いものの、全面的な低下ではありません:agentic misalignment(エージェントのミスアライメント)シナリオではほぼ100%であり、低下は主に健康クエリの証拠不足、記憶バイアス、不可能タスクなどの特定シナリオに集中しています。OpenAI は調査後、一部の回帰は評価自体の限界に起因すると考えています。リポジトリは同時に Anti-Scheming と Memory の2つの評価を廃止しました。前者は汎用 CoT 監視とタスク固有の回答評価の間に不一致があるため、後者は回答評価の精度が不十分なためです。
(出典:BlockBeats)
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン留め