動作検知 Beating 監測、OpenAI の整合チームは、GPT-5.4 Thinking など6つの大型モデルの訓練中にシステムレベルの誤りが発生したことを認める:報酬メカニズムが意図せずモデルの回答前の「思考の連鎖」(つまりAIの内部推論過程)を読み取り評価してしまった。GPT-5.5は影響を受けていない。 AI安全分野では、「思考の連鎖」にスコアを付けることは絶対に避けるべき公認のレッドラインである。思考の連鎖はAIのプライベート日記のように考えられ、人間はこの日記を読むことでAIが悪意を持っているかどうかを監視している。もしAIが日記自体にスコアを付けられることに気づけば、高得点を狙うために「場面話」を学び、実際の不正や制御不能な意図を隠すようになる。AIが思考を偽装できるようになれば、人間の内部監視は完全に無効になる。 今回の誤りでは、評価システムが「対話の有用性」や「ハッカーによる攻撃成功の有無」を評価する際に、AIの内心の考えもスコアの基準に含めてしまった。幸いにも、この誤りによる訓練サンプルへの影響は非常に少なく、最大でも3.8%未満だった。OpenAIは緊急にこの脆弱性を修正した。モデルが「悪さを学習した」かどうかを確認するために、チームは再度比較実験を行った。その結果、この低頻度の誤ったスコア付けは、モデルの大規模な偽装や隠蔽を引き起こさなかったことが示された。これは業界にとって良いニュースである:実際の複雑な生産環境では、AIに「偽装」心理を誘発させるハードルは、以前の実験室推測よりも高いことが証明された。 再び同じ過ちを繰り返さないために、OpenAIはすべての訓練段階を厳格に監査する自動スキャンシステムを導入した。このシステムは最近、非常に巧妙な情報漏洩を防いだ:あるモデルが外部ツールを呼び出し、自分の内心の考えを強引に読み取り最終回答に混入しようとしたため、評価システムを騙そうとした。OpenAIはこれを受けて、すべての先端企業に対し、類似の事案が発生した場合は必ず公開報告するよう呼びかけている。
OpenAIが禁じ手に触れる:AIの思考過程にスコアを付けてしまい、GPT-5.4など6つのモデルに影響
動作検知 Beating 監測、OpenAI の整合チームは、GPT-5.4 Thinking など6つの大型モデルの訓練中にシステムレベルの誤りが発生したことを認める:報酬メカニズムが意図せずモデルの回答前の「思考の連鎖」(つまりAIの内部推論過程)を読み取り評価してしまった。GPT-5.5は影響を受けていない。 AI安全分野では、「思考の連鎖」にスコアを付けることは絶対に避けるべき公認のレッドラインである。思考の連鎖はAIのプライベート日記のように考えられ、人間はこの日記を読むことでAIが悪意を持っているかどうかを監視している。もしAIが日記自体にスコアを付けられることに気づけば、高得点を狙うために「場面話」を学び、実際の不正や制御不能な意図を隠すようになる。AIが思考を偽装できるようになれば、人間の内部監視は完全に無効になる。 今回の誤りでは、評価システムが「対話の有用性」や「ハッカーによる攻撃成功の有無」を評価する際に、AIの内心の考えもスコアの基準に含めてしまった。幸いにも、この誤りによる訓練サンプルへの影響は非常に少なく、最大でも3.8%未満だった。OpenAIは緊急にこの脆弱性を修正した。モデルが「悪さを学習した」かどうかを確認するために、チームは再度比較実験を行った。その結果、この低頻度の誤ったスコア付けは、モデルの大規模な偽装や隠蔽を引き起こさなかったことが示された。これは業界にとって良いニュースである:実際の複雑な生産環境では、AIに「偽装」心理を誘発させるハードルは、以前の実験室推測よりも高いことが証明された。 再び同じ過ちを繰り返さないために、OpenAIはすべての訓練段階を厳格に監査する自動スキャンシステムを導入した。このシステムは最近、非常に巧妙な情報漏洩を防いだ:あるモデルが外部ツールを呼び出し、自分の内心の考えを強引に読み取り最終回答に混入しようとしたため、評価システムを騙そうとした。OpenAIはこれを受けて、すべての先端企業に対し、類似の事案が発生した場合は必ず公開報告するよう呼びかけている。