広場
最新
注目
ニュース
プロフィール
ポスト
OpenAIがオープンソース化した思考連鎖の監視可能性評価:CoTが長いほど透明性が高く、RLはモデルに「心を隠す」ことを教えない
MeNews
2026-07-04 04:26:33
フォロー
概要作成中
AIMPACT ニュース、4月24日(UTC+8)、動察 Beating のモニタリングによると、OpenAI は論文「Monitoring Monitorability」(Guan et al.)の評価スイート monitorability-evals を公開しました。ライセンスは Apache-2.0 です。このスイートは、推論モデルの思考連鎖(CoT、モデルが回答を生成する前の内部推論プロセス)を通じて異常行動を検出できるかどうかを測定するもので、13の評価、24の環境をカバーします。評価は3つのプロトタイプに分類されます:Intervention(介入型、モデル入力を変更した後に監視モデルが行動変化を認識できるか)、Process(プロセス型、モデルの推論ステップが真実であるかを検証)、Outcome-property(結果属性型、推論軌跡から出力に報酬チートや安全違反がないかを予測)。論文の核心的な発見:CoTを監視することは、モデルの最終的な行動と出力のみを監視するよりも効果的である。CoTが長いほど、監視可能性が高まる。RLトレーニングは、現在の最先端規模でも監視可能性を実質的に低下させない。実用的な発見として、低推論力の大規模モデルの場合、より小さいが推論力の高いモデルに切り替えることで、能力を一致させつつ高い監視可能性を得ることができるが、推論計算コストは高くなる。さらに、弱い監視モデルの推論計算力を拡大することで、強いモデルを監視する効果が向上し、弱い監視モデルにCoTを見せることで監視可能性が高まるだけでなく、この拡大傾向も加速する。GPT-5.4 Thinking システムカードは既にこの評価を使用している。結果によると、GPT-5.4 Thinking の全体のCoT監視可能性は GPT-5 Thinking よりわずかに低いが、全面的な低下ではない:エージェントミスアライメント(agentic misalignment)のシナリオではほぼ100%であり、低下は主に健康クエリの証拠欠如、記憶バイアス、不可能タスクなどの特定のシナリオで見られる。OpenAIは調査後、一部の回帰は評価自体の限界に起因すると考えている。リポジトリでは Anti-Scheming と Memory の2つの評価を廃止した。その理由は、前者では汎用CoT監視とタスク固有の回答評価の間に不一致があり、後者では回答評価の精度が不足しているためである。 (出典:BlockBeats)
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については
免責事項
をご覧ください。
報酬
いいね
コメント
リポスト
共有
コメント
コメントを追加
コメントを追加
コメント
コメントなし
人気の話題
もっと見る
#
gStocksTokenizedStocksLive
4.76M 人気度
#
StrongNonfarmPayrollsRekindleRateHikeFear
1.04M 人気度
#
IsraelStrikesIranBTCPlunges
68.04K 人気度
#
PredictWorldCupShare20000U
202.94K 人気度
#
ETHBreaks1700
152.56M 人気度
ピン留め
サイトマップ
OpenAIがオープンソース化した思考連鎖の監視可能性評価:CoTが長いほど透明性が高く、RLはモデルに「心を隠す」ことを教えない