AIMPACT ニュース、4月24日（UTC+8）、動察 Beating のモニタリングによると、OpenAI は論文「Monitoring Monitorability」（Guan et al.）の評価スイート「monitorability-evals」をオープンソース化した。ライセンスはApache-2.0。このスイートは、監視モデルが推論モデルの思考連鎖（CoT、モデルが回答前に生成する内部推論プロセス）を通じて異常行動を検出できるかを測定するもので、13の評価、24の環境をカバーする。評価は3つのプロトタイプに分類される：Intervention（介入型、モデル入力を変更した後に監視モデルが行動変化を認識できるか）、Process（プロセス型、モデルの推論ステップが真実かどうかを検証）、Outcome-property（結果属性型、推論軌跡から出力に報酬チートや安全違反がないかを予測）。論文の核心的発見：CoTを監視することは、モデルの最終的な行動と出力のみを監視するよりも効果的；CoTが長いほど、監視可能性が高い；RLトレーニングは現在の最先端規模でも実質的に監視可能性を低下させない。実用的な発見として、低推論力の大規模モデルに対しては、より小さいが推論力の高いモデルに切り替えることで、能力を一致させつつ高い監視可能性を得られるが、代償として推論計算コストが高くなる。さらに、弱い監視モデルの推論計算力を拡大することで、強いモデルの監視効果を向上させることができ、弱い監視モデルにCoTを見せることは監視可能性を高めるだけでなく、この拡大傾向を加速させる。GPT-5.4 Thinking system cardではこの評価がすでに使用されている。結果は、GPT-5.4 Thinkingの全体的なCoT監視可能性がGPT-5 Thinkingよりわずかに低いが、全面的な低下ではない：agentic misalignment（エージェントのアライメント偏差）シナリオではほぼ100%に達し、低下は主に健康クエリの証拠欠如、記憶バイアス、不可能タスクなどの特定シナリオで発生。OpenAIは調査後、一部の回帰は評価自体の限界に起因すると考えている。リポジトリでは同時にAnti-SchemingとMemoryの2つの評価を廃止した。理由は、前者では一般的なCoT監視とタスク固有の回答判定の間にミスマッチがあり、後者では回答判定の精度が不十分であるため。（出典：BlockBeats）

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

報酬
いいね
コメント
リポスト
共有

コメントを追加

コメントなし

人気の話題
もっと見る
#
gStocksTokenizedStocksLive
4.78M 人気度
#
StrongNonfarmPayrollsRekindleRateHikeFear
1.05M 人気度
#
IsraelStrikesIranBTCPlunges
68.1K 人気度
#
PredictWorldCupShare20000U
196.64K 人気度
#
ETHBreaks1700
152.57M 人気度

ピン留め

サイトマップ

OpenAIがオープンソース化した思考連鎖の監視可能性評価：CoTが長ければ長いほど透明になり、RLはモデルに「心を隠す」ことを教えない

人気の話題

gStocksTokenizedStocksLive

StrongNonfarmPayrollsRekindleRateHikeFear

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

ETHBreaks1700

ピン留め