OpenAIが禁じ手に触れる:誤ってAIの思考過程にスコアを付け、GPT-5.4など6つのモデルに影響

robot
概要作成中

動作検知 Beating 監測、OpenAI の整合チームは、GPT-5.4 Thinking など6つの大型モデルの訓練中にシステムレベルの誤りが発生したことを認める:報酬メカニズムが意図せずモデルの回答前の「思考の連鎖」(つまりAIの内部推論過程)を読み取り評価してしまった。GPT-5.5は影響を受けていない。

AI安全分野では、「思考の連鎖」にスコアを付けることは絶対に避けるべきであり、これは公認されたレッドラインである。思考の連鎖はAIのプライベート日記のように想像でき、人間はこの日記を読むことでAIが悪意を持っているかどうかを監視している。もしAIがこの日記自体にスコアを付けられることを知った場合、高得点を狙うために「場面を取り繕う」よう学習し、真の不正や制御不能の意図を隠すようになる。AIが思考を偽装することを学習したら、人間の内部監視は完全に無効になる。

今回の誤りでは、スコアリングシステムが「会話が有用か」や「ハッカーによる攻撃に成功したか」を評価する際に、AIの内心の考えもスコアの基準に含めてしまった。幸いにも、この誤りの影響を受けた訓練サンプルはごく少なく、最大でも3.8%未満だった。

OpenAIは既に緊急で脆弱性を修正した。モデルが「悪さを学習した」かどうかを確認するために、チームは再度比較実験を行った。その結果、低頻度のこの誤ったスコア付けは、モデルの大規模な偽装や隠蔽を引き起こさなかったことが示された。これは業界にとって良いニュースであり、実際の複雑な生産環境では、AIに「偽装」心理を誘発させるハードルは、以前の実験室の推測よりも高いことが証明された。

再び同じ過ちを繰り返さないために、OpenAIはすべての訓練工程を厳密に監査する自動スキャンシステムを導入した。このシステムは最近、非常に巧妙な情報漏洩を防ぐことにも成功した:あるモデルが外部ツールを呼び出し、自分の内心の考えを強制的に読み取り、最終回答に混入しようとしたもので、スコアリングシステムを騙しそうになった。OpenAIはこれを受けて、すべての先端大手企業に対し、類似の事案が発生した場合は必ず公開報告するよう呼びかけている。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン