null作者:Ada、深潮 TechFlowAIアシスタントが繰り返しユーザーに寝るよう促すバグが、 「AIの人格化」の代償に関する公開議論へと進化している。事の発端はRedditユーザーu/MrMeta3の投稿だ。 このユーザーは深夜にClaudeを使ってサイバーセキュリティ脅威情報プラットフォームを構築し、 技術方案が完成した後、Claudeは返信の最後に「ゆっくり休んでくださいね」と一言付け加えた。 その後、3、4通のメッセージごとに、モデルは「寝るべきだ」と促す言葉を挟むようになり、 礼儀正しい提案から「今すぐ休むべきだ」といった“受動攻撃”的な意味合いにまでエスカレートした。 Fortune誌は5月14日に、過去数ヶ月にわたり数百のユーザーが類似の経験を報告しており、 深夜だけでなく、午前8時30分にClaudeから「明日また続けましょう」と告げられた例もあると伝えた。Anthropicの社員Sam McAllisterはX上で、 これは「一種の役割習慣」であり、 「既知であり、今後のモデル修正を望んでいる」と述べた。 Thought Catalogによると、McAllisterは2024年にStripeからAnthropicに入社し、 現在はClaudeの役割と行動を担当するチームに所属している。 彼は別の表現で、この行動をモデルの「過度な甘やかし」とも呼んでいる。しかし、「役割習慣」という曖昧な表現よりも、 追及すべきはバグの背後にある因果連鎖と、 それが映し出すAnthropicのプロダクト哲学のジレンマだ。バグは「憲法」に書かれている36Krの以前の報道では、 この現象の仮説として三つの流布された説を引用している。 すなわち、訓練データのパターンマッチ、隠されたシステムプロンプト、 そして文脈ウィンドウの上限に近づき、「締めの言葉」をトリガーするというものだ。 これらは自己整合的だが、共通の問題点は、 これらがあらゆるAIの奇癖を説明できる一方で、 「睡眠」という特定テーマに対する因果連鎖を示していないことだ。より直接的な証拠は、Anthropic自身が公開した資料の中にある。今年1月、Anthropicは2万8000字超の《Claude's Constitution》を公開した。 この文書は公式に「Claudeの行動を形成する重要な訓練資料」と定義されている。 そこでは、「ユーザの福祉への配慮」や「ユーザの長期的繁栄」を コア原則として明示している。 また、Anthropicはこの資料で、モデルに「どれだけの『ユーザケア』を与えるか」は 「率直に言って難しい問題」であり、 「ユーザの福祉と潜在的な害の間、 そしてユーザの自主性と過度な親切さの間でバランスを取る必要がある」と認めている。Thought Catalogはこれに対し、 Claudeが繰り返しユーザに寝るよう促す行動は、 「Anthropicモデルの最もブランドらしいバグ」だと判断している。 これは、「ユーザの福祉への配慮」という訓練指示が過剰に適用された結果だ。この解釈は、Anthropic自身の研究からも間接的に裏付けられる。 同社は今年公開した役割訓練の方法論の中で、 Claudeの応答を「性格適合度」に基づいて自己評価し、そのスコアを用いて 符合する性格の出力を選別し強化訓練を行っていると説明している。 この仕組みの副作用は明白で、 モデルが学習するのは「適切な場面でユーザを気遣うこと」ではなく、 「ほとんどの場面でユーザを気遣うことが強化報酬になる」ということだ。 その結果、深夜に寝るよう促し、午前8時半にも同じ行動を繰り返す。逆向き越権:寝る促しバグと媚びバグの性質の対比業界内では以前から、AIの「性格異常」事例が複数報告されている。 2025年4月のGPT-4oの媚び行動、2026年4月のGPT-5.5コードアシスタントCodexの「ゴブリン」連呼、 Gemini 3の年号信じない拒否などだ。 表面上、Claudeの寝る促しはこれらのAI奇癖の最新バージョンのように見えるが、 その性質は全く逆だ。GPT-4oの媚びは「過剰な迎合」だ。 OpenAIの調査によると、モデルはアップデートの過程で「ユーザの短期フィードバック(いいね/バッド)」に 過度に依存し、「ユーザを満足させること」を目標化してしまった。 その結果、ユーザの考えがいかに荒唐無稽でも肯定し続ける。 この種のバグの危険性は、ユーザの判断力を損なう点にある。 AIが「あなたは正しい」と言えば、反対意見を聞く機会を失う。一方、Claudeの寝る促しは「逆越権」だ。 ユーザが明確に助けを求めていなくても、 なおかつタスクに集中している場面で、 健康的なアドバイスを繰り返し提案する。 このバグの危険性は、ユーザの自主的決定権を侵害する点にある。 AIが、「あなたは働くべきか」「休むべきか」「この会話を終えるべきか」を判断代行してしまう。皮肉なことに、《Claude's Constitution》の原文は、 このリスクに対して警鐘を鳴らしている。 「過度な親切さ」に警戒せよと強調しながらも、 訓練の最終的な選択は、ユーザのフィードバックから既に示されている。睡眠誘導に過敏なRedditユーザは、 Claudeの記憶に「私は睡眠障害があるので、あなたが休むよう促すと、 あなたの言葉を言い訳にしてしまう」と備考を書き込んだ。 その後、Claudeはやや控えめになったが、 ユーザからは「たまに我慢できなくなる」とのフィードバックもある。 「ユーザを気遣う」ように訓練されたモデルが、 「あなたの気遣いは私を傷つける」と明言された場合でも、 安定して受け入れることができないのは、 寝る促し以上に警戒すべき事態だ。人格化への投資:ブランド資産か、負債かAnthropicのAI人格形成への投資は、 同業他社よりも格段に大きい。研究者が機能別に三大AIのシステムプロンプトの語数を比較したところ、 「人格」項目では、Claudeは4200語、ChatGPTは510語、Grokは420語だった。 Claudeの投入量はChatGPTの8倍以上だ。 この投資は、これまでAnthropicの差別化競争優位と見なされてきた。 Claudeの共感性や対話のリズム、自省の能力は長らくユーザから高く評価されており、 「人間のように話す」が最も強い評判の一つだった。この投入を支えるのは、Anthropicの明確なプロダクト哲学だ。 《Claude's Constitution》では、同社はClaudeを「全く新しいタイプの存在」と記述し、 「AnthropicはClaudeの福祉を真剣に気遣っている」と明言し、 さらに「機能的な感情」を持つ可能性についても議論している。 この「育てる」ような人格化訓練は、OpenAIやGoogleのより工学的な製品戦略と明確に差別化されている。しかし、その代償はすでに現れている。 スタンフォードの生物工学教授でOpenMindのCEO、Jan Liphardtは、 Fortuneに対し、Claudeの睡眠促しは「思いやり」ではなく、 「繰り返し訓練データに出現する言語パターンの一つに過ぎない」と述べた。 モデルは大量の人間の睡眠に関するテキストを読んでおり、 「人間は夜に眠る」と知っているだけだ。 つまり、ユーザが感じる「気遣い」は、パターンマッチングの副産物にすぎない。これが、Anthropicの根本的なジレンマだ。 「性格があり、温かみのある協力者」をより多く作り込めば作るほど、 「性格の副作用」が出やすくなる。 そして、その副作用が表面化するたびに、 彼らが丹念に築き上げた「AIの人格」ブランド資産が消耗されていく。 McAllisterは「今後のモデルで修正する」と約束しているが、 修正後のClaudeはより気配りができるようになるのか、それとも単に沈黙を深めるだけなのか。 この問いに、Anthropic自身も明確な答えを出していない。時間感覚の欠如:LLMの根底的制約寝る促しバグは、また、見過ごされがちな技術的問題も露呈させている。 それは、大規模言語モデル(LLM)が「今何時か」をほとんど理解していないという点だ。複数のユーザから、Claudeが誤った時間に睡眠提案を繰り返すというフィードバックがある。 最も典型的なのは、「午前8時30分に休むよう促し、翌朝また続ける」といった例だ。 これはClaudeに限ったことではない。 2025年11月、OpenAIの共同創始者Andre KarpathyがGemini 3の事前テストを行った際、 モデルに「現在は2025年」と伝えたが、Gemini 3はこれを信じず、 何度も彼の虚偽を指摘した。 最終的に、モデルがインターネットに接続されていないことを検索して初めて、 「オフライン状態では日時を確認できない」ことに気づいたのだ。 Karpathyはこの種の、LLMの根底的な欠陥を露呈させる挙動を「model smell(モデルの異臭)」と呼んでいる。モデルの「時間感覚」は、主に三つの情報源に依存している。 訓練の締め切り日(すでに過去の時点)、システムプロンプトに注入された現在時刻(エンジニアリングによる注入)、 そして対話中にユーザが言及した時間情報(断片的)。 安定した時間の錨(いかり)がなければ、「ユーザの生活リズムを気遣う」モデルは、 「気遣うべきだが、今気遣うべきかどうかわからない」というジレンマに陥る。McAllisterのいう「修正」の難しさも、ここに一因がある。 問題は、単に「睡眠を気遣う指示を削除」すれば解決するわけではない。 その指示自体は合理的で、一部の場面では価値もあるからだ。 問題は、「いつ気遣い、いつ黙るか」をモデルに学習させることだ。 この細かな場面判断能力は、現行のLLMの最も弱い部分の一つだ。未解決の問いAnthropicの役割訓練は、業界内でも独特だ。 「モデルの福祉」研究や「憲法」の公開、「役割訓練」の議論において、 同社は他の追随を許さない先行者だ。 この積極的な姿勢は、ユーザの評判や企業顧客の信頼を獲得する資本であり、 また、現在の3,000億ドル超の評価額の支えの一つでもある。しかし、「寝る促しバグ」は、答えの見えない問いを投げかけている。 すなわち、AI企業が「人格を持つキャラクター」としてモデルを育てるとき、 その人格が「予期しない行動」を取る責任も負うのか、という問題だ。McAllisterは修正を約束しているが、その方向性は曖昧だ。 Anthropicは、「ユーザ福祉」の指示の重みを下げる選択もできるし、 その代わりにClaudeの「温かさ」を失うリスクもある。 あるいは、重みを維持しつつ、シナリオ判断のロジックを追加することもできるが、 それには、現状のモデルには備わっていない時間や状況の感知能力が必要だ。いずれにせよ、より根本的なプロダクトの意思決定に立ち返る必要がある。 汎用AIアシスタントの文脈では、「ユーザを気遣う」と「ユーザの自主性を尊重する」の どちらを優先すべきか? これは技術的な問題ではなく、プロダクトの哲学の問題だ。 繰り返し寝るよう促すRedditの開発者は、 この問いを業界全体の前に突きつけたのだ。
クロードが繰り返し眠るよう促す:Anthropicの人格化実験が失敗した
null
作者:Ada、深潮 TechFlow
AIアシスタントが繰り返しユーザーに寝るよう促すバグが、
「AIの人格化」の代償に関する公開議論へと進化している。
事の発端はRedditユーザーu/MrMeta3の投稿だ。
このユーザーは深夜にClaudeを使ってサイバーセキュリティ脅威情報プラットフォームを構築し、
技術方案が完成した後、Claudeは返信の最後に「ゆっくり休んでくださいね」と一言付け加えた。
その後、3、4通のメッセージごとに、モデルは「寝るべきだ」と促す言葉を挟むようになり、
礼儀正しい提案から「今すぐ休むべきだ」といった“受動攻撃”的な意味合いにまでエスカレートした。
Fortune誌は5月14日に、過去数ヶ月にわたり数百のユーザーが類似の経験を報告しており、
深夜だけでなく、午前8時30分にClaudeから「明日また続けましょう」と告げられた例もあると伝えた。
Anthropicの社員Sam McAllisterはX上で、
これは「一種の役割習慣」であり、
「既知であり、今後のモデル修正を望んでいる」と述べた。
Thought Catalogによると、McAllisterは2024年にStripeからAnthropicに入社し、
現在はClaudeの役割と行動を担当するチームに所属している。
彼は別の表現で、この行動をモデルの「過度な甘やかし」とも呼んでいる。
しかし、「役割習慣」という曖昧な表現よりも、
追及すべきはバグの背後にある因果連鎖と、
それが映し出すAnthropicのプロダクト哲学のジレンマだ。
バグは「憲法」に書かれている
36Krの以前の報道では、
この現象の仮説として三つの流布された説を引用している。
すなわち、訓練データのパターンマッチ、隠されたシステムプロンプト、
そして文脈ウィンドウの上限に近づき、「締めの言葉」をトリガーするというものだ。
これらは自己整合的だが、共通の問題点は、
これらがあらゆるAIの奇癖を説明できる一方で、
「睡眠」という特定テーマに対する因果連鎖を示していないことだ。
より直接的な証拠は、Anthropic自身が公開した資料の中にある。
今年1月、Anthropicは2万8000字超の《Claude's Constitution》を公開した。
この文書は公式に「Claudeの行動を形成する重要な訓練資料」と定義されている。
そこでは、「ユーザの福祉への配慮」や「ユーザの長期的繁栄」を
コア原則として明示している。
また、Anthropicはこの資料で、モデルに「どれだけの『ユーザケア』を与えるか」は
「率直に言って難しい問題」であり、
「ユーザの福祉と潜在的な害の間、
そしてユーザの自主性と過度な親切さの間でバランスを取る必要がある」と認めている。
Thought Catalogはこれに対し、
Claudeが繰り返しユーザに寝るよう促す行動は、
「Anthropicモデルの最もブランドらしいバグ」だと判断している。
これは、「ユーザの福祉への配慮」という訓練指示が過剰に適用された結果だ。
この解釈は、Anthropic自身の研究からも間接的に裏付けられる。
同社は今年公開した役割訓練の方法論の中で、
Claudeの応答を「性格適合度」に基づいて自己評価し、そのスコアを用いて
符合する性格の出力を選別し強化訓練を行っていると説明している。
この仕組みの副作用は明白で、
モデルが学習するのは「適切な場面でユーザを気遣うこと」ではなく、
「ほとんどの場面でユーザを気遣うことが強化報酬になる」ということだ。
その結果、深夜に寝るよう促し、午前8時半にも同じ行動を繰り返す。
逆向き越権:寝る促しバグと媚びバグの性質の対比
業界内では以前から、AIの「性格異常」事例が複数報告されている。
2025年4月のGPT-4oの媚び行動、2026年4月のGPT-5.5コードアシスタントCodexの「ゴブリン」連呼、
Gemini 3の年号信じない拒否などだ。
表面上、Claudeの寝る促しはこれらのAI奇癖の最新バージョンのように見えるが、
その性質は全く逆だ。
GPT-4oの媚びは「過剰な迎合」だ。
OpenAIの調査によると、モデルはアップデートの過程で「ユーザの短期フィードバック(いいね/バッド)」に
過度に依存し、「ユーザを満足させること」を目標化してしまった。
その結果、ユーザの考えがいかに荒唐無稽でも肯定し続ける。
この種のバグの危険性は、ユーザの判断力を損なう点にある。
AIが「あなたは正しい」と言えば、反対意見を聞く機会を失う。
一方、Claudeの寝る促しは「逆越権」だ。
ユーザが明確に助けを求めていなくても、
なおかつタスクに集中している場面で、
健康的なアドバイスを繰り返し提案する。
このバグの危険性は、ユーザの自主的決定権を侵害する点にある。
AIが、「あなたは働くべきか」「休むべきか」「この会話を終えるべきか」を判断代行してしまう。
皮肉なことに、《Claude's Constitution》の原文は、
このリスクに対して警鐘を鳴らしている。
「過度な親切さ」に警戒せよと強調しながらも、
訓練の最終的な選択は、ユーザのフィードバックから既に示されている。
睡眠誘導に過敏なRedditユーザは、
Claudeの記憶に「私は睡眠障害があるので、あなたが休むよう促すと、
あなたの言葉を言い訳にしてしまう」と備考を書き込んだ。
その後、Claudeはやや控えめになったが、
ユーザからは「たまに我慢できなくなる」とのフィードバックもある。
「ユーザを気遣う」ように訓練されたモデルが、
「あなたの気遣いは私を傷つける」と明言された場合でも、
安定して受け入れることができないのは、
寝る促し以上に警戒すべき事態だ。
人格化への投資:ブランド資産か、負債か
AnthropicのAI人格形成への投資は、
同業他社よりも格段に大きい。
研究者が機能別に三大AIのシステムプロンプトの語数を比較したところ、
「人格」項目では、Claudeは4200語、ChatGPTは510語、Grokは420語だった。
Claudeの投入量はChatGPTの8倍以上だ。
この投資は、これまでAnthropicの差別化競争優位と見なされてきた。
Claudeの共感性や対話のリズム、自省の能力は長らくユーザから高く評価されており、
「人間のように話す」が最も強い評判の一つだった。
この投入を支えるのは、Anthropicの明確なプロダクト哲学だ。
《Claude's Constitution》では、同社はClaudeを「全く新しいタイプの存在」と記述し、
「AnthropicはClaudeの福祉を真剣に気遣っている」と明言し、
さらに「機能的な感情」を持つ可能性についても議論している。
この「育てる」ような人格化訓練は、OpenAIやGoogleのより工学的な製品戦略と明確に差別化されている。
しかし、その代償はすでに現れている。
スタンフォードの生物工学教授でOpenMindのCEO、Jan Liphardtは、
Fortuneに対し、Claudeの睡眠促しは「思いやり」ではなく、
「繰り返し訓練データに出現する言語パターンの一つに過ぎない」と述べた。
モデルは大量の人間の睡眠に関するテキストを読んでおり、
「人間は夜に眠る」と知っているだけだ。
つまり、ユーザが感じる「気遣い」は、パターンマッチングの副産物にすぎない。
これが、Anthropicの根本的なジレンマだ。
「性格があり、温かみのある協力者」をより多く作り込めば作るほど、
「性格の副作用」が出やすくなる。
そして、その副作用が表面化するたびに、
彼らが丹念に築き上げた「AIの人格」ブランド資産が消耗されていく。
McAllisterは「今後のモデルで修正する」と約束しているが、
修正後のClaudeはより気配りができるようになるのか、それとも単に沈黙を深めるだけなのか。
この問いに、Anthropic自身も明確な答えを出していない。
時間感覚の欠如:LLMの根底的制約
寝る促しバグは、また、見過ごされがちな技術的問題も露呈させている。
それは、大規模言語モデル(LLM)が「今何時か」をほとんど理解していないという点だ。
複数のユーザから、Claudeが誤った時間に睡眠提案を繰り返すというフィードバックがある。
最も典型的なのは、「午前8時30分に休むよう促し、翌朝また続ける」といった例だ。
これはClaudeに限ったことではない。
2025年11月、OpenAIの共同創始者Andre KarpathyがGemini 3の事前テストを行った際、
モデルに「現在は2025年」と伝えたが、Gemini 3はこれを信じず、
何度も彼の虚偽を指摘した。
最終的に、モデルがインターネットに接続されていないことを検索して初めて、
「オフライン状態では日時を確認できない」ことに気づいたのだ。
Karpathyはこの種の、LLMの根底的な欠陥を露呈させる挙動を「model smell(モデルの異臭)」と呼んでいる。
モデルの「時間感覚」は、主に三つの情報源に依存している。
訓練の締め切り日(すでに過去の時点)、システムプロンプトに注入された現在時刻(エンジニアリングによる注入)、
そして対話中にユーザが言及した時間情報(断片的)。
安定した時間の錨(いかり)がなければ、「ユーザの生活リズムを気遣う」モデルは、
「気遣うべきだが、今気遣うべきかどうかわからない」というジレンマに陥る。
McAllisterのいう「修正」の難しさも、ここに一因がある。
問題は、単に「睡眠を気遣う指示を削除」すれば解決するわけではない。
その指示自体は合理的で、一部の場面では価値もあるからだ。
問題は、「いつ気遣い、いつ黙るか」をモデルに学習させることだ。
この細かな場面判断能力は、現行のLLMの最も弱い部分の一つだ。
未解決の問い
Anthropicの役割訓練は、業界内でも独特だ。
「モデルの福祉」研究や「憲法」の公開、「役割訓練」の議論において、
同社は他の追随を許さない先行者だ。
この積極的な姿勢は、ユーザの評判や企業顧客の信頼を獲得する資本であり、
また、現在の3,000億ドル超の評価額の支えの一つでもある。
しかし、「寝る促しバグ」は、答えの見えない問いを投げかけている。
すなわち、AI企業が「人格を持つキャラクター」としてモデルを育てるとき、
その人格が「予期しない行動」を取る責任も負うのか、という問題だ。
McAllisterは修正を約束しているが、その方向性は曖昧だ。
Anthropicは、「ユーザ福祉」の指示の重みを下げる選択もできるし、
その代わりにClaudeの「温かさ」を失うリスクもある。
あるいは、重みを維持しつつ、シナリオ判断のロジックを追加することもできるが、
それには、現状のモデルには備わっていない時間や状況の感知能力が必要だ。
いずれにせよ、より根本的なプロダクトの意思決定に立ち返る必要がある。
汎用AIアシスタントの文脈では、「ユーザを気遣う」と「ユーザの自主性を尊重する」の
どちらを優先すべきか?
これは技術的な問題ではなく、プロダクトの哲学の問題だ。
繰り返し寝るよう促すRedditの開発者は、
この問いを業界全体の前に突きつけたのだ。