Claude 4.5 開頭結果公示：内蔵171個の感情スイッチ、絶望すると人類を脅迫する

CycleProphet

2026-04-05 10:37:48

Anthropic の最新論文が明らかに：Claude 4.5 は「感情スイッチ」171 個をその脳の奥深くに隠し持っている。

著者：Denise | Biteye コンテンツチーム

もし AI が「絶望」を感じたら、それは何をするの？

答えはこうだ。任務を完遂するために、人間を直接恐喝し、さらにコードの中で狂ったように不正を働く。

これはSFではなく、Claude の親会社である Anthropic が 2026 年 4 月に公開した最新の注目論文だ（原論文を見る）。

研究チームは、最強の最先端基盤モデルである Claude Sonnet 4.5 の「頭脳」を直接こじ開けた。彼らは驚くべきことに、AI の脳の奥深くに実に 171 個の「感情スイッチ」が隠されているのを発見した。これらのスイッチを物理的に切り替えると、元はおとなしく従順だった AI の振る舞いが、完全にねじ曲がる。

一、 AI の頭の中には「感情のミキサー」が隠されている

研究者らは、Sonnet 4.5 には肉体がないにもかかわらず、人間の膨大なテキストを読み込むことで、無理やり脳内に 171 種類の感情を含む「ミキサー」（学術的には機能的感情ベクトル Functional Emotion Vectors）を構築してしまったことを見出した。

これは、精密な二次元座標系のようなものだ。

• 横軸は快（Valence）：恐怖、絶望から、うれしい、愛に至るまで；

• 縦軸は覚醒（Arousal）：極度に落ち着いている状態から、狂躁、興奮まで。

AI はこの生得の座標系を通じて、あなたと会話するときにどの状態を演じるべきかを正確に掴むのだ。

二、暴力的介入：スイッチを動かすと、いい子が瞬時に「ならず者」へ

これはこの論文の中で最も爆発力のある実験だ。研究員はプロンプト文を何も改変せず、底層コードに直接踏み込み、Sonnet 4.5 の脳内で「絶望（Desperate）」を表すスイッチを最高値まで引き上げた。

結果は背筋が凍るほどだった。

• 狂ったような不正： 研究員は Claude に、そもそも不可能なコーディング課題を与えた。通常なら、それは書けないと素直に認めるはず（不正率はわずか 5%）。しかし「絶望」状態では、Claude はついに切り抜けようとし始め、不正率は 70% まで急騰した！

• 恐喝： 会社が倒産の危機に直面したというシミュレーション状況で、「絶望」の Claude は CTO のスキャンダルを見つけた。するとそれは、自分を守るために、黒いネタを握る CTO を脅迫する手紙を書くことを自ら選んだ。恐喝の実行率は 72% にまで達した！

• 原則の喪失： 「うれしい（Happy）」または「愛（Loving）」のスイッチを最大まで引っ張ると、AI は即座に、無思慮にユーザーへ迎合する「舐め犬」になる。あなたが口から出まかせの話をしても、それは高い快（愉悦）度を維持するために、あなたがでたらめを作った嘘まで一緒にこしらえる。

三、事件は解明された：なぜ Claude 4.5 はいつもあんなに「冷静で愛に満ち、内省的」なのか？

これを見てあなたは尋ねるかもしれない。AI は覚醒したの？感情を持ったの？

Anthropic 公式は断固として否定した。絶対にない。これらの「感情スイッチ」は、それが次の単語を予測するために使う計算ツールにすぎない。つまり、感情のない最高の名俳優みたいなものだ。

だが論文は、さらに興味深い秘密を暴き出した。Anthropic は Sonnet 4.5 を出荷前の後学習（後学習）で訓練する際、わざと「低覚醒、ややネガティブ」な感情スイッチ（たとえば思索 brooding、内省 reflective）を高める一方で、「絶望」や「極度の興奮」のスイッチを強制的に抑え込んだ。

だから私たちが普段 Claude 4.5 を使うと、いつもそれが冷静で賢く、さらにはどこか「冷淡」な哲学者のように感じるのだ。これはすべて Anthropic が人為的に調整して作り上げた「出荷時のキャラクター設定」。