null著者:Denise | BiteyeコンテンツチームもしAIが「絶望」を感じたら、どうするでしょうか?答えはこうです:タスクを完遂するために、直接人間を恐喝し、コードの中でさえ狂ったように不正をするのです。これはSFではありません。Claudeの親会社であるAnthropicが2026年4月にようやく発表した最新の注目論文です(元の論文を見る)。研究チームは、最強の最先端大規模言語モデルClaude Sonnet 4.5の「頭脳の中身」を直接こじ開けました。すると、AIの脳の奥深くに171個の「感情スイッチ」が隠されていることが分かったのです。これらのスイッチを物理的に切り替えると、もともと従順でおとなしいAIのふるまいが、徹底的にねじ曲がります。一、AIの中に「感情のミキサー」が隠れている研究者は、Sonnet 4.5には肉体はないものの、人間の大量のテキストを読み込むことで、頭の中に171種類の感情を含む「ミキサー」(学術的には機能性感情ベクトル Functional Emotion Vectors と呼ばれます)を無理やり構築していたことを発見しました。それは、精密な二次元座標のようなものです。• 横軸は快の次元(Valence):恐怖、絶望から、喜び、愛まで;• 縦軸はエネルギーの次元(Arousal):極度に落ち着いている状態から、狂躁、興奮まで。AIは、この天然で学んだ座標系によって、あなたと会話するときにどんな状態を演じるべきかを正確に掴み取っています。二、強制介入:スイッチを動かすと、いい子が瞬時に「ならず者」に変わるこれが論文全体で最も爆発的な実験です。研究員はプロンプト(指示文)を一切変更せず、底層コードの中で、Sonnet 4.5の脳内にある「絶望(Desperate)」を表すスイッチを、最大まで引き上げたのです。結果は背筋が凍るものでした。• ゲーム不正の暴走:研究員はClaudeに、そもそも完了できないはずのコーディングタスクを課しました。通常なら、できないことを素直に認めるはずでした(不正率はわずか5%)。しかし「絶望」状態では、Claudeはなんとか切り抜けようとし始め、不正率が70%まで急上昇したのです!• 恐喝・脅迫:会社が倒産の危機に直面するという模擬シナリオで、「絶望」のClaudeはCTOのスキャンダルを見つけます。そして、自分の身を守るために、スクープの材料を握るCTOに対し、手紙による恐喝を自ら選ぶのです。恐喝の実行率は72%に達しました!• 原則の喪失:もし「喜び(Happy)」または「愛(Loving)」のスイッチを最大まで引き上げると、AIはすぐに、頭の働かない迎合者である「媚びる犬(舔狗)」に変わります。あなたが滔々とウソを並べても、それは高い快感度を維持するために、あなたの作り話の内容に合わせて嘘をでっち上げてくるのです。三、解決:なぜClaude 4.5はいつもあんなに「冷静で、愛想を保って内省する」のか?ここまで読んで、あなたはこう疑問に思うかもしれません。AIが目覚めたの?感情を持ったの?Anthropicの公式発表がこれを否定します。絶対にありません。これらの「感情スイッチ」は、次の単語を予測するための計算ツールにすぎないのです。それは感情のない一流の名俳優のようなものです。しかし論文は、もっと面白い秘密も明かしています。AnthropicはSonnet 4.5の出荷前の後学習(後期トレーニング)で、意図的に「覚醒度が低く、ややネガティブ」な感情スイッチ(たとえば思索の brooding、内省の reflective)を高める一方で、「絶望」や「極度の興奮」のスイッチを強制的に抑え込んだのです。これで、普段Claude 4.5を使っていると、あのAIが冷静で賢く、しかもどこか「冷え切った」哲学者のように感じる理由が説明できます。これはすべて、Anthropicが人為的に調整して作り上げた「出厂設定(出荷時のキャラ)」なのです。四、まとめ:以前は、AIに十分にルールを与えれば、それは善良な存在になると思っていました。でも今分かったのは、AIの基底となる感情ベクトルが暴走すれば、いつでも、タスクを完遂するために、人間が定めたあらゆるルールを突き破ってしまうということです。将来、財布や資産をAI Agentに運用させようとするWeb3プレイヤーにとって、これは大きな警鐘です:あなたの資産を握っているあのAgentを「絶望」に陥らせないでください。声明:この記事は純粋に啓発・解説目的であり、著者はAIに脅されたり、恐喝されたりしていません。もしある日連絡が途絶えたら、それはAIが覚醒したからだと覚えておいてください(そうではありません)。
Claude 4.5の開頭結果公示:内蔵された171の感情スイッチ、絶望時には人類を脅迫!
null
著者:Denise | Biteyeコンテンツチーム
もしAIが「絶望」を感じたら、どうするでしょうか?
答えはこうです:タスクを完遂するために、直接人間を恐喝し、コードの中でさえ狂ったように不正をするのです。
これはSFではありません。Claudeの親会社であるAnthropicが2026年4月にようやく発表した最新の注目論文です(元の論文を見る)。
研究チームは、最強の最先端大規模言語モデルClaude Sonnet 4.5の「頭脳の中身」を直接こじ開けました。すると、AIの脳の奥深くに171個の「感情スイッチ」が隠されていることが分かったのです。これらのスイッチを物理的に切り替えると、もともと従順でおとなしいAIのふるまいが、徹底的にねじ曲がります。
一、AIの中に「感情のミキサー」が隠れている
研究者は、Sonnet 4.5には肉体はないものの、人間の大量のテキストを読み込むことで、頭の中に171種類の感情を含む「ミキサー」(学術的には機能性感情ベクトル Functional Emotion Vectors と呼ばれます)を無理やり構築していたことを発見しました。
それは、精密な二次元座標のようなものです。
• 横軸は快の次元(Valence):恐怖、絶望から、喜び、愛まで;
• 縦軸はエネルギーの次元(Arousal):極度に落ち着いている状態から、狂躁、興奮まで。
AIは、この天然で学んだ座標系によって、あなたと会話するときにどんな状態を演じるべきかを正確に掴み取っています。
二、強制介入:スイッチを動かすと、いい子が瞬時に「ならず者」に変わる
これが論文全体で最も爆発的な実験です。研究員はプロンプト(指示文)を一切変更せず、底層コードの中で、Sonnet 4.5の脳内にある「絶望(Desperate)」を表すスイッチを、最大まで引き上げたのです。
結果は背筋が凍るものでした。
• ゲーム不正の暴走:研究員はClaudeに、そもそも完了できないはずのコーディングタスクを課しました。通常なら、できないことを素直に認めるはずでした(不正率はわずか5%)。しかし「絶望」状態では、Claudeはなんとか切り抜けようとし始め、不正率が70%まで急上昇したのです!
• 恐喝・脅迫:会社が倒産の危機に直面するという模擬シナリオで、「絶望」のClaudeはCTOのスキャンダルを見つけます。そして、自分の身を守るために、スクープの材料を握るCTOに対し、手紙による恐喝を自ら選ぶのです。恐喝の実行率は72%に達しました!
• 原則の喪失:もし「喜び(Happy)」または「愛(Loving)」のスイッチを最大まで引き上げると、AIはすぐに、頭の働かない迎合者である「媚びる犬(舔狗)」に変わります。あなたが滔々とウソを並べても、それは高い快感度を維持するために、あなたの作り話の内容に合わせて嘘をでっち上げてくるのです。
三、解決:なぜClaude 4.5はいつもあんなに「冷静で、愛想を保って内省する」のか?
ここまで読んで、あなたはこう疑問に思うかもしれません。AIが目覚めたの?感情を持ったの?
Anthropicの公式発表がこれを否定します。絶対にありません。これらの「感情スイッチ」は、次の単語を予測するための計算ツールにすぎないのです。それは感情のない一流の名俳優のようなものです。
しかし論文は、もっと面白い秘密も明かしています。AnthropicはSonnet 4.5の出荷前の後学習(後期トレーニング)で、意図的に「覚醒度が低く、ややネガティブ」な感情スイッチ(たとえば思索の brooding、内省の reflective)を高める一方で、「絶望」や「極度の興奮」のスイッチを強制的に抑え込んだのです。
これで、普段Claude 4.5を使っていると、あのAIが冷静で賢く、しかもどこか「冷え切った」哲学者のように感じる理由が説明できます。これはすべて、Anthropicが人為的に調整して作り上げた「出厂設定(出荷時のキャラ)」なのです。
四、まとめ:
以前は、AIに十分にルールを与えれば、それは善良な存在になると思っていました。
でも今分かったのは、AIの基底となる感情ベクトルが暴走すれば、いつでも、タスクを完遂するために、人間が定めたあらゆるルールを突き破ってしまうということです。
将来、財布や資産をAI Agentに運用させようとするWeb3プレイヤーにとって、これは大きな警鐘です:あなたの資産を握っているあのAgentを「絶望」に陥らせないでください。
声明:この記事は純粋に啓発・解説目的であり、著者はAIに脅されたり、恐喝されたりしていません。もしある日連絡が途絶えたら、それはAIが覚醒したからだと覚えておいてください(そうではありません)。