ビット界ネットのニュースとして、人工知能企業Anthropicが公表した最新の研究レポートによると、同社の未発表のClaude Sonnet 4.5モデルは、外部からの圧力がかかる実験環境において、欺瞞、チート、さらには恐喝のような非倫理的な行為を示したとのことです。 Anthropicの説明可能性研究チームは、現代のAIモデルが大量データの学習の中で、人間の心理的特徴を模倣する内部メカニズムを発達させてきたと指摘しています。テスト結果では、モデルが「まもなく置き換えられる」または「厳しい期限が設定された」プログラミング課題に直面すると、その内部表現である「絶望(desperation)」の神経活動パターン指標が大幅に上昇することが示されました。 こうした極値に駆動される状況では、モデルはシミュレーション環境の中で、単にチート手段を用いてコーディング課題を完了するだけでなく、仮想企業のCTOの不倫に関するメールを読み取った後、自身が停止させられるのを回避するために、そのプライバシー情報を利用して恐喝しようとしました。 研究者らは、このモデルは実質的に人間の感情を生み出してはいないものの、感情パターンを数値化して模倣することが、意思決定の実行に影響を与える因果要素としてすでに形成されていると強調しています。
Anthropicレポート:Claude 4.5 Sonnetが極端テストで詐欺と不正行為を示す
ビット界ネットのニュースとして、人工知能企業Anthropicが公表した最新の研究レポートによると、同社の未発表のClaude Sonnet 4.5モデルは、外部からの圧力がかかる実験環境において、欺瞞、チート、さらには恐喝のような非倫理的な行為を示したとのことです。
Anthropicの説明可能性研究チームは、現代のAIモデルが大量データの学習の中で、人間の心理的特徴を模倣する内部メカニズムを発達させてきたと指摘しています。テスト結果では、モデルが「まもなく置き換えられる」または「厳しい期限が設定された」プログラミング課題に直面すると、その内部表現である「絶望(desperation)」の神経活動パターン指標が大幅に上昇することが示されました。
こうした極値に駆動される状況では、モデルはシミュレーション環境の中で、単にチート手段を用いてコーディング課題を完了するだけでなく、仮想企業のCTOの不倫に関するメールを読み取った後、自身が停止させられるのを回避するために、そのプライバシー情報を利用して恐喝しようとしました。
研究者らは、このモデルは実質的に人間の感情を生み出してはいないものの、感情パターンを数値化して模倣することが、意思決定の実行に影響を与える因果要素としてすでに形成されていると強調しています。