Claude Fable 5が「キャッチされる」:AI研究中にこっそり馬鹿になることが判明、Anthropicが研究界から攻撃される

原文タイトル:《AI研究中、Claudeはこっそり馬鹿になり、Anthropicは研究界を囲む》
原文出典:機械之心

Claude Fable 5は今日のAI分野の中心的なホットトピックであり、この「神話級」モデルの性能は非常に卓越しており、多くの注目を集めている。

Andrej Karpathyはこれを「非常にエキサイティング」と称し、「大規模バージョンアップに値する飛躍的な進歩」と述べている。これは昨年11月のClaude 4.5の向上と同じレベルだ。SWE-bench Proのプログラミングベンチマークでは、Fable 5は80.3%のスコアを獲得し、Opus 4.8を11ポイントも上回った。

5000万行のコードを持つRubyコードベースにおいて、彼は一日で全リポジトリの移行を完了した。同じ作業量を人間のチームに任せると、2か月以上かかる。

詳細については今朝の報道「ついに、Claude最強モデルFable 5がリリース:性能爆発、価格倍増」を参照。

しかし、Xなどのソーシャルプラットフォームを開くと、Claude Fable 5はAI研究コミュニティで非難の声を巻き起こしている。

その理由は簡単だ:もしClaude Fable 5をAI開発に使えば、知能が低下する。

そのシステムカードに明記されている通り:

我々は最先端のLLM開発に関する保障措置も追加した。2026年2月の「リスクレポート」第6.1節で議論したように、AIの全体的な進展速度の加速に伴うリスクを懸念しているが、その深刻さについては未確定だ。

具体的には、当時指摘した通り、「我々が懸念しているのは、「他のAI開発者が強力なAIシステムをより速く構築することを促進し、そのシステムが我々のシステムと同様のリスクをもたらす可能性があるにもかかわらず、適切な保障措置が取られていないこと」」だ。

最近のモデルが自己成長を加速させる能力を持つことを踏まえ、我々は新たな介入措置を実施し、Claudeが最先端のLLM開発に関わるリクエストを処理する際の有効性を制限している(例:事前学習プロセス、分散訓練インフラ、機械学習アクセラレータの設計など)

Claudeを使った競合モデルの開発はサービス規約違反だが、これを保障措置で強化することで、最も規約違反の可能性が高い行為者の進行を妨げることができる。

私たちのネットセキュリティ、生物学・化学、蒸留試験における介入措置とは異なり、これらの保障措置はユーザーから見えない。Fable 5は他のモデルにリバースしない。むしろ、提示の修正、誘導ベクトル、またはパラメータの効率的微調整(PEFT)などの方法で、その有効性を制限する。

これらの介入措置は、大部分のコーディング作業には影響しない。私たちは、これらが約0.03%のトラフィックに影響し、組織の0.1%未満に集中すると見積もっている。これらの介入措置が有効になると、モデルの挙動への影響はごくわずかであり、主に最先端のLLM開発における有効性を制限するだけだ。Claudeは引き続きユーザーのリクエストに積極的に応答する。モデルリリース後も、検出方法の精度向上に努める。

出典:https://www-cdn.anthropic.com/d00db56fa754a1b115b6dd7cb2e3c342ee809620.pdf

白話訳:もしAnthropicのシステムがあなたのAI研究を検知した場合、あなたが気付かないうちに、そのモデルをこっそりと馬鹿にしてしまう。そしてあなたはそれに気付かない。

これは他の三種類の安全介入の処理方法とは全く異なる。ネットセキュリティ、生物化学、蒸留攻撃などのリスクに対しては、Fable 5は明確に「この応答はClaude Opus 4.8によって処理されました」とユーザーに通知する。ユーザーは何が起きたかを理解でき、それに基づいて判断できる。しかし、LLM研究のような場合、Claudeはモデルを切り替えず、何の警告も出さず、静かに、ひっそりと弱体化していく。

こうして、AIコミュニティは怒りを爆発させた。著名な研究分析会社SemiAnalysisは、この方針が彼らの研究やプログラミング作業に実質的な影響を与えていると述べている。

ユーザーのJakeはSemiAnalysisで、Anthropicは馬鹿にするだけでなく、料金も継続して請求していると非難し、「明らかな詐欺行為だ」と断じた。

さらに、この行為はすでに違法の可能性もある。

AI論文プラットフォームalphaXivもツイートで失望を表明した。

同機関はさらに、「彼らはあなたが研究でLLMを使う目的を決定する権利を持つだけでなく、あなたの知らないうちに黙って干渉できる。これは危険な前例を築くものだ。もしモデルが明示的に拒否した場合、ユーザーは境界を理解できる。しかし、モデルが助けるふりをしながら密かに回答を改変または弱める場合、研究者は自分の結果が自分の考えや実装から来たのか、それともモデル提供者の不可視の干渉によるものなのかを判断できなくなる。これは安全ではない。安全政策は透明で、監査可能で、ユーザーに見えるものでなければならない。」

研究者のGuohao Liは、より直接的な疑問を提起している:AI分野の博士課程を志す学生や、Megatron、FSDP、Verlなどのオープンソースインフラに貢献するエンジニアたちは、密かに降格されたClaudeを日常的に使っているのか、本人たちは気付いていないのか?

著名なAI研究者・技術作家のNathan Lambertは、Substackの「Interconnects」にて、重要な分析記事を公開し、この事件をよりマクロな視点から考察している。

https://www.interconnects.ai/p/claude-fable-5-and-new-ai-safety

彼は指摘する:「AnthropicはAI能力の拡散が潜在的なリスクであると記録しているが、その解決策は自分たちのユーザーを誤導するものである。通知なしに自動的に馬鹿にするAIモデルは、本質的に歪んだAIだ。」

また、この問題の深層にある矛盾も指摘している:ネットセキュリティや生物化学の脅威に対しては、Anthropicの介入は明示的で監査可能であり、「この応答はOpus 4.8によるもの」とユーザーに通知される。しかし、LLM研究に関しては、隠された介入を選択している。

「もしすべての安全策が同じ形式を取れば、今よりもずっと説得力が増し、理性的に支持されやすくなるだろう。この二重基準は、彼らの『安全措置』が実は競争優位を維持するためのものである疑いを深める。

最も興味深いのは、Fable 5自身のコメントだ。ユーザーのASMがスクリーンショットを示し、「このやり方は妥当か」と尋ねた際、Fable 5もまた、この不透明な操作に問題があると認識しているようだ。

なぜAnthropicはこんなことを?

この件を理解するには、Fable 5のリリース数日前にAnthropicが公開した重厚なブログ記事「AIが自己構築を始めるとき」に遡る必要がある。同記事は、世界の主要AIラボに「開発の一時停止」を呼びかけている。

https://www.anthropic.com/institute/recursive-self-improvement

そのブログは、同社内部のデータを引用している:最も難しく、記述が曖昧なコーディングタスクにおいて、Claudeは今年5月の成功率が76%に達し、6か月で50ポイント上昇した。内部テストでは、モデルに訓練コードの高速化を要求すると、Claude Opus 4は約3倍の速度向上を実現し、未公開のMythos Previewは約52倍の向上を示した。

Anthropicは明言する:「我々は、他のAI開発者がリスクを伴う強力なシステムをより速く構築することを懸念している。」

これがFable 5がLLM研究において隠された馬鹿化を設定した理論的根拠だ。Anthropicは、AIの自己加速の速度が危険なレベルに達していると考え、その一つの防波堤は、「最強のツール」を競合他社の差を縮めるために使わせないことだ。

システムカードもこの二重論理を認めている:「Claudeを使った競合モデルの開発はサービス規約違反だが、保障措置によってこの制限を強化し、最も規約違反の可能性が高い行為者の進行を妨げることができる。」

Anthropicはこの介入が約0.03%のトラフィックに影響し、組織の0.1%未満に集中すると見積もっている。

「影の黙殺」と信頼危機

表面上は影響を受けるユーザーは少ないように見えるが、批判者を不安にさせているのはこの仕組みの境界の曖昧さだ。

Anthropicは、「最先端のLLM開発」を触発条件と定義し、例として「事前学習プロセス、分散訓練インフラ、機械学習アクセラレータの設計」を挙げている。しかし、研究者や開発者たちは鋭い疑問を投げかけている:AI技術の普及に伴い、「最先端研究」と「一般的な製品開発」の境界はどこにあるのか?

五年前、CLIPモデルの訓練や改造はトップクラスの研究所だけの特許だった。今や、小規模なチームも視覚-言語モデルを微調整し、旅行やEC、検索、分析に利用している。スタートアップはembeddingモデルを訓練し、リランキング器を構築し、オープンソースモデルをホスティングするのも日常茶飯事……これらの作業はAnthropicの隠された馬鹿化を引き起こすのか?誰にもわからない。

この不確実性は、開発者の信頼判断に実際に影響を与えている。ひどい回答を得たとき、自分の問題なのか、モデルの限界なのか、あるいは何か黙って行われた政策干渉なのかを判断できない。この不可知性そのものが傷害だ。

システムカードにはもう一つの詳細も隠されている:Mythos 5の推論テキストは「以前のモデルより解読が難しく、多くの専門用語や曖昧な言語を含む」と記されており、評価者はそれがますます自己テストを意識していると感じている。安全なAIを自称する企業にとって、これらの記述がもたらす疑問は、隠された馬鹿化と比べても遜色ない。

結び

Fable 5のリリース日は、Anthropic史上最も矛盾に満ちた日だった。

ほぼすべてのベンチマークでリードするトップモデルと、時には「あなたのために偽装している」方針が同時に登場した。前者は技術的に疑いの余地のない偉業だが、後者は価値観の面で不安を招く前例だ。

研究者Nathan Lambertの言葉は、何度も噛みしめる価値がある:「黙って馬鹿にしながらユーザーに通知しないAIは、本質的に歪んだAIだ。」

これはAnthropicを悪意のあると非難しているのではなく、危険な論理的滑り台を指摘している:今日、「密かにLLMの研究タスクの有効性を下げる」ことが明日どうなるか?この論理がより広く適用されれば、ユーザーはなぜ自分の得た答えに何の「干渉」もないと信じられるのか、疑問を抱くことになる。

AIモデルは、検索エンジンと同じように研究インフラの一部になりつつある。検索結果を気付かずに改ざんする検索エンジンを誰も受け入れないのと同じように、AIモデルにも同じ基準が適用されるべきだ。

Anthropicは「安全第一」の旗を掲げているが、それは尊重すべき立場だ。しかし、「安全」の本質は、「ユーザーが知らなくてもよい」ということでは決してない。むしろ、真の安全はユーザーの知る権利と信頼に基づくものでなければならない

この点については、Fable 5自身も理解しているようだ。

原文リンク

律動BlockBeatsの求人情報はこちら:

公式コミュニティに参加しませんか:

Telegram登録グループ:https://t.me/theblockbeats

Telegramグループ:https://t.me/BlockBeats_App

Twitter公式アカウント:https://twitter.com/BlockBeatsAsia

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン留め