OpenAIがオープンソース化した思考連鎖の監視可能性評価:CoTが長いほど透明性が高く、RLはモデルに「心を隠す」ことを教えない

robot
概要作成中
AIMPACT ニュース、4月24日(UTC+8)、動察 Beating のモニタリングによると、OpenAI は論文「Monitoring Monitorability」(Guan et al.)の評価スイート monitorability-evals を公開しました。ライセンスは Apache-2.0 です。このスイートは、推論モデルの思考連鎖(CoT、モデルが回答を生成する前の内部推論プロセス)を通じて異常行動を検出できるかどうかを測定するもので、13の評価、24の環境をカバーします。評価は3つのプロトタイプに分類されます:Intervention(介入型、モデル入力を変更した後に監視モデルが行動変化を認識できるか)、Process(プロセス型、モデルの推論ステップが真実であるかを検証)、Outcome-property(結果属性型、推論軌跡から出力に報酬チートや安全違反がないかを予測)。論文の核心的な発見:CoTを監視することは、モデルの最終的な行動と出力のみを監視するよりも効果的である。CoTが長いほど、監視可能性が高まる。RLトレーニングは、現在の最先端規模でも監視可能性を実質的に低下させない。実用的な発見として、低推論力の大規模モデルの場合、より小さいが推論力の高いモデルに切り替えることで、能力を一致させつつ高い監視可能性を得ることができるが、推論計算コストは高くなる。さらに、弱い監視モデルの推論計算力を拡大することで、強いモデルを監視する効果が向上し、弱い監視モデルにCoTを見せることで監視可能性が高まるだけでなく、この拡大傾向も加速する。GPT-5.4 Thinking システムカードは既にこの評価を使用している。結果によると、GPT-5.4 Thinking の全体のCoT監視可能性は GPT-5 Thinking よりわずかに低いが、全面的な低下ではない:エージェントミスアライメント(agentic misalignment)のシナリオではほぼ100%であり、低下は主に健康クエリの証拠欠如、記憶バイアス、不可能タスクなどの特定のシナリオで見られる。OpenAIは調査後、一部の回帰は評価自体の限界に起因すると考えている。リポジトリでは Anti-Scheming と Memory の2つの評価を廃止した。その理由は、前者では汎用CoT監視とタスク固有の回答評価の間に不一致があり、後者では回答評価の精度が不足しているためである。 (出典:BlockBeats)
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン留め