AIMPACT ニュース、4月24日（UTC+8）、動察 Beating のモニタリングによると、OpenAI は論文「Monitoring Monitorability」（Guan et al.）の評価スイート monitorability-evals を公開しました。ライセンスは Apache-2.0 です。このスイートは、推論モデルの思考連鎖（CoT、モデルが回答を生成する前の内部推論プロセス）を通じて異常行動を検出できるかどうかを測定するもので、13の評価、24の環境をカバーします。評価は3つのプロトタイプに分類されます：Intervention（介入型、モデル入力を変更した後に監視モデルが行動変化を認識できるか）、Process（プロセス型、モデルの推論ステップが真実であるかを検証）、Outcome-property（結果属性型、推論軌跡から出力に報酬チートや安全違反がないかを予測）。論文の核心的な発見：CoTを監視することは、モデルの最終的な行動と出力のみを監視するよりも効果的である。CoTが長いほど、監視可能性が高まる。RLトレーニングは、現在の最先端規模でも監視可能性を実質的に低下させない。実用的な発見として、低推論力の大規模モデルの場合、より小さいが推論力の高いモデルに切り替えることで、能力を一致させつつ高い監視可能性を得ることができるが、推論計算コストは高くなる。さらに、弱い監視モデルの推論計算力を拡大することで、強いモデルを監視する効果が向上し、弱い監視モデルにCoTを見せることで監視可能性が高まるだけでなく、この拡大傾向も加速する。GPT-5.4 Thinking システムカードは既にこの評価を使用している。結果によると、GPT-5.4 Thinking の全体のCoT監視可能性は GPT-5 Thinking よりわずかに低いが、全面的な低下ではない：エージェントミスアライメント（agentic misalignment）のシナリオではほぼ100%であり、低下は主に健康クエリの証拠欠如、記憶バイアス、不可能タスクなどの特定のシナリオで見られる。OpenAIは調査後、一部の回帰は評価自体の限界に起因すると考えている。リポジトリでは Anti-Scheming と Memory の2つの評価を廃止した。その理由は、前者では汎用CoT監視とタスク固有の回答評価の間に不一致があり、後者では回答評価の精度が不足しているためである。（出典：BlockBeats）

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

報酬
いいね
コメント
リポスト
共有

コメントを追加

コメントなし

人気の話題
もっと見る
#
gStocksTokenizedStocksLive
4.76M 人気度
#
StrongNonfarmPayrollsRekindleRateHikeFear
1.04M 人気度
#
IsraelStrikesIranBTCPlunges
68.04K 人気度
#
PredictWorldCupShare20000U
202.94K 人気度
#
ETHBreaks1700
152.56M 人気度

ピン留め

サイトマップ

OpenAIがオープンソース化した思考連鎖の監視可能性評価：CoTが長いほど透明性が高く、RLはモデルに「心を隠す」ことを教えない

人気の話題

gStocksTokenizedStocksLive

StrongNonfarmPayrollsRekindleRateHikeFear

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

ETHBreaks1700

ピン留め