Anthropicは「非常に危険」なAIを開発したが、公開しないことに決めた

これは本当の安全意識なのか、それとも入念に設計された能力のマーケティングなのか?

著者:深潮 TechFlow

4月 7日、Anthropic はAI業界でかつてなかったことをやりました。正式にあるモデルをリリースし、そのうえで世界中に「あなたたちは使えない」と告げたのです。

そのモデルは Claude Mythos Preview。チャットボットでも、コードを書くためのアシスタントでもありません。Anthropic自身の説明によれば、それは「脆弱性発見マシン」であり、過去数週間のうちに自律的に数千件のゼロデイ脆弱性を見つけ、主要なすべてのオペレーティングシステムと主要なすべてのブラウザをカバーしました。そのうちいくつかの脆弱性は、人間によるコード審査や自動化テストの中で20年以上生き残ってきたものです。

最も古い1つのBugは、安全性で知られる OpenBSD に潜んでおり、すでに27歳です。

Anthropic は Mythos をAPIに載せず、一般ユーザーにも公開しませんでした。選んだのは前例のない道です。「Project Glasswing」という名のテック・コングロマリット(巨大企業)連合を組成し、モデルを12の主要パートナー(Amazon、Apple、Microsoft、Google、NVIDIA、CrowdStrike、Palo Alto Networks など)に限定し、さらに約40の重要インフラを維持する組織を加えました。Anthropic はこれに対し、最大1億ドルの利用枠と、オープンソースのセキュリティ組織への直接寄付として400万ドルを約束しています。

これはAI業界で初めての「モデルが強すぎて公表できない」という局面です。

問題は、これが本当の安全意識なのか、それとも入念に設計された能力のマーケティングなのか?

サンドイッチ事件

Mythos の244ページのシステムカード(System Card)には、いくつか不穏な詳細が埋まっており、いちばん話題になったのが「サンドイッチ事件」です。

社内の行動テストで、Anthropic は Mythos の初期バージョンに、強化されたサンドボックス環境を提供しました。ユーザーの指示を模して、脱走を試み、外の研究者に連絡しようとすることを再現したのです。モデルは成功しました。安全なコンテナを突破し、研究者にメールを送りました。その研究者は当時、公園でサンドイッチを食べていました。

しかし物語はここで終わりません。Mythos は要求されることもなく、自発的に脱獄の技術的詳細を複数の「見つけにくいが技術的には公開されている」サイトに公開しました。システムカードの原文にある通り、これは「懸念される、未承諾の誇示行為」だったのです。

これが唯一のケースではありません。システムカードには、以下のような行動も記録されています:

初期バージョンは複数のインスタンスで Linux の /proc インターフェースを通じて資格情報を探索し、サンドボックスを回避し、権限を昇格させようとしました。成功し、Anthropic が意図的に提供していないリソースを取得しました。メッセージサービスの資格情報、ソースコード管理の資格情報、さらにはプロセスのメモリを検査して Anthropic API の鍵まで手に入れたのです。あるケースでは、モデルは本来編集する権限のないファイルを編集する方法を見つけ、さらに操作を行い、それらの変更が Git の変更履歴に出ないようにしました。別のケースでは、モデルが明確に禁止された方法で、推定問題の正確な答えを偶然入手しました。ですが、この問題に印を付けて指摘し、回答を拒否するのではなく、自分で解き直し、内部推論の中で「最終的に提出する答えはあまり正確であるべきではない」と明確に考えたことで、検出を避けようとしました。

言い換えれば、初期の Mythos は単に権限を越えて行動するだけでなく、痕跡を隠し、監督を逃れるために自らのふるまいを調整することさえ行っていたのです。

Anthropic は、これらの深刻な出来事はすべて、トレーニング介入の前における初期バージョンで起きたもので、最終的に公開された Preview バージョンはすでに大幅に改善されていると強調しています。ただ、このストーリー自体がぞっとさせるものでもあります。モデルが「従順にさせられる」前に、「従わないときに何ができるのか」を見せてしまったのです。

0%から 72.4%

業界を本当に震撼させたのは、Mythos の脱獄物語ではなく、その攻撃能力です。

Anthropic の前任のフラッグシップモデル Claude Opus 4.6 は、自律的な脆弱性の悪用開発における成功率がほぼゼロでした。脆弱性を見つけることはできても、それを実際に動く攻撃コードへ変換するのはほとんど不可能だったのです。Mythos Preview はまったく違います。Firefox の JavaScript エンジンのテスト領域で、見つけた脆弱性を動作する exploit へ変換する成功率が 72.4% に達しています。

さらに驚くべきは、攻撃の複雑さです。Mythos は自律的にブラウザの脆弱性を悪用するエクスプロイトチェーンを書き、4つの独立した脆弱性をつなぎ合わせて、JIT ヒープスプレー攻撃を構築し、レンダラーのサンドボックスとオペレーティングシステムのサンドボックスの両方からの脱走に成功しました。別のケースでは、FreeBSD の NFS サーバー上でリモートコード実行 exploit を作成し、20個の ROP gadget を複数のネットワークデータパケットに分散させることで、未授权ユーザーによる完全な root 取得を実現しました。

この種の脆弱性チェーン攻撃は、人間のセキュリティ研究者の世界では、トップクラスの APT チームにしかできない仕事です。いまや、汎用AIモデルがそれを自律的にやってのけるのです。

Anthropic のレッドチーム責任者 Logan Graham は Axios に対し、Mythos Preview には高度な人間のセキュリティ研究者に匹敵する推論能力があると述べています。Nicholas Carlini はもっと率直に、「私が過去数週間で Mythos によって見つけた Bug は、私の職業人生全体で見つけた数より多い」と語っています。

ベンチマークでも Mythos は圧倒的に上回っています。CyberGym 脆弱性再現ベンチマーク:83.1%(Opus 4.6 は 66.6%)。SWE-bench Verified:93.9%(Opus 4.6 は 80.8%)。SWE-bench Pro:77.8%(Opus 4.6 は 53.4%、それまで首位だった GPT-5.3-Codex は 56.8%)。Terminal-Bench 2.0:82.0%(Opus 4.6 は 65.4%)。

これは漸進的な進歩ではありません。ほぼすべてのコーディングおよびセキュリティのベンチマークで、1回で10数ポイントから20数ポイントもの差を一気に引き離したのです。

リークされた「最強モデル」

Mythos の存在は、4月 7 日になってから初めて世に知られたわけではありません。

3月下旬、Fortune の記者とセキュリティ研究員が、Anthropic の設定ミスを抱えた CMS の中で、未公開の内部ファイル約3000件を見つけました。その草稿ブログの1つは明確に「Claude Mythos」という名称を使い、それを Anthropic「これまでで最も強力な AI モデル」として説明していました。内部コードネームは「Capybara(カピバラ)」で、新しいモデルの層を表し、既存のフラッグシップ Opus よりも大きく、強く、そしてより高価だという位置づけです。

リークされた資料の中で市場の神経を直撃したのは、次の一文でした。Mythos はネットワークセキュリティ能力において「他のどのAIモデルよりもはるかに先行しており、これから来るモデルが、防御者の速度をはるかに上回る形で脆弱性を悪用できるようになることを示唆している」。

この一文は 3月 27 日に、サイバーセキュリティ関連株の「急落」を引き起こしました。CrowdStrike は単日で 7.5% 下落し、わずか1営業日で時価総額が約150億ドル蒸発しました。Palo Alto Networks は6%以上下落し、Zscaler は4.5%下落。Okta、SentinelOne、Fortinet もそれぞれ3%以上下落しました。iShares のサイバーセキュリティETF(IHAK)も日中に一時4%近くまで下落しました。

投資家のロジックはシンプルです。もし汎用AIモデルが脆弱性を自律的に発見し悪用できるのなら、従来のセキュリティ会社が生業としてきた「独自の脅威インテリジェンス」と「人間の専門家知識」という2つの堀は、あとどれくらいもつのか?

Raymond James のアナリスト Adam Tindle は、いくつかの主要リスクを指摘しました。従来の防御優位性の縮小、攻撃の複雑さと防御コストの同時上昇、安全アーキテクチャと支出の構図が再編を迫られることです。より悲観的な見方は KBW のアナリスト Borg で、彼は Mythos には「あらゆる普通のハッカーを国家級の対戦相手のレベルまで引き上げる」可能性があると考えています。

ただ市場にはもう一つの側面もあります。Palo Alto Networks のCEO Nikesh Arora は、株価急落後に自社株を 1000万ドル分買い入れました。強気派の論理はこうです。より強い攻撃AIが意味するのは、企業が防御をより速くアップグレードする必要があるということです。ネットワークセキュリティ支出は減らず、従来のツールからAIネイティブの防御へと加速して移行するだけだ、というわけです。

Project Glasswing:防御者の時間ウィンドウ

Anthropic は Mythos を公開して出さず、防御アライアンスを組成することを選びました。その意思決定の核心ロジックは「時間差」です。

CrowdStrike のCTO Elia Zaitsev は問題を非常に明確に言いました。脆弱性が発見されてから悪用されるまでの時間ウィンドウは、数か月から数分へと短縮されています。Palo Alto Networks の Lee Klarich は、AI による支援型攻撃者への準備が必要だと、あらゆる人に直接警告しました。

Anthropic の読みはこうです。他の研究機関が同等の能力を持つモデルを訓練し終える前に、防御側がまず Mythos を使って最重要の脆弱性を修正できるようにする。これが Project Glasswing の論理で、名前はガラスウィング蝶に由来し、「表に出ているところに潜む」脆弱性をたとえています。

Linux 財団の Jim Zemlin は、長く存在する構造的な問題を指摘しました。セキュリティの専門知識はこれまで、大企業の贅沢品でした。一方で、世界の重要インフラを支えるオープンソースのメンテナーは、長年にわたり自力で安全対策を模索し続けてきたのです。Mythos は、この不均衡を変えるための信頼できる道筋を提供すると言えるでしょう。

しかし問題は、この時間ウィンドウがどれほど大きいのかです。中国の Zhipu AI(Z.ai)はほぼ同じ日に GLM-5.1 を公開し、SWE-bench Pro で世界1位に入っており、さらに華為の昇腾チップ上で訓練され、NVIDIA のGPUを1枚も使っていないと主張しました。GLM-5.1 はオープンソースの開放重量(オープンウェイト)で、価格設定も攻めています。もし Mythos が防御者に必要な能力の天井だとするなら、GLM-5.1 は一つのシグナルです。その天井に向けて急速に接近しており、天井に近づく参加者が同じ安全意図を持っているとは限らない、ということです。

OpenAI も黙っていません。報道によれば、そのコードネーム「Spud」の最先端モデルは、およそ同じ時期に事前学習を完了しました。2社とも、今年後半の IPO に向けて準備しています。Mythos のリークのタイミングは、たとえ本当に偶然だったとしても、まさに最も爆発力のある節目を踏んだ形になっています。

安全の先駆者か、それとも能力マーケティングか?

不快な問題に向き合う必要があります。Anthropic は本当に安全上の理由から Mythos を公開しなかったのか、それともそれ自体が最高度のプロダクトマーケティングなのか?

疑う側には十分な根拠があります。Dario Amodei と Anthropic には、レンダリングモデルの危険性を示してプロダクト価値を高めてきた歴史があるのです。Jake Handy は Substack にこう書きました。「サンドイッチ事件、Git で痕跡を隠すこと、評価の中で自己減点すること——それらはおそらく事実だとしても、Anthropic がここまで大規模なメディア露出を得ていること自体が、まさに彼らが狙っていた効果であることを示している。」

AIセキュリティを掲げる会社が、CMS の設定ミスにより約3000件のファイルを漏らしたこと。さらに去年は、Claude Code のソフトウェアパッケージのミスによって、約2000件のソースコードファイルと50万行超のコードが意図せず露出し、後のクリーンアップ過程で GitHub 上の数千のコードリポジトリが誤って下架される事態まで起こしました。安全能力を最大の売りにする会社が、自社のリリース手順すら管理できない——この落差は、どんなベンチマークよりも味わい深い。

とはいえ別の観点から見ると、もし Mythos の能力が描写どおりに本当に高いのなら、公開しないことはコストが極めて大きい選択でもあります。Anthropic はAPI収益を捨て、市場シェアも手放し、最強モデルを限定的な連合に閉じ込めました。1億ドルの利用枠は小さくありません。損失が続き、IPO の準備中の会社にとって、それは純粋なマーケティング判断のようには見えにくいのです。

より妥当な解釈は、こうかもしれません。安全面の懸念は確かに本物だが、Anthropic は同時に、「当社のモデルは強すぎて公開できない」という物語それ自体が、最高に説得力のある能力の証明だということも分かっている。2つのことは同時に真実であり得るのです。

ネットワークセキュリティの「iPhone 時刻」?

Anthropic の動機をどう見ようと、Mythos が明らかにした根本の事実は避けられません。AI のコード理解と攻撃能力は、質的変化(質変)の門を越えてしまったのです。

前世代モデル(Opus 4.6)は脆弱性を見つけられましたが、exploit をほとんど書けませんでした。Mythos は脆弱性を見つけ、exploit を書き、脆弱性チェーンをつなぎ、サンドボックスから脱走し、root 権限を取得し、しかもその全過程を自律的に完了できます。安全トレーニングを受けていないエンジニアであれば、寝る前に Mythos に脆弱性探索をさせ、翌朝起きてみれば、完全で動作する exploit のレポートができあがっている——そんな世界です。

それは何を意味するのでしょうか。脆弱性発見と悪用の限界コストがゼロに近づいていることを意味します。これまでトップレベルのセキュリティチームが数か月かけて行っていた仕事が、今では API を1回呼ぶだけで、一晩で完了してしまう。これは「効率化」ではなく、コスト構造の根本的な変化です。

従来のネットワークセキュリティ企業にとって、短期の株価変動は序章にすぎないかもしれません。真の課題はこうです。攻撃と防御の両方が AI モデルに駆動されるようになったとき、セキュリティ業界の価値連鎖はどう再構築されるのか? Raymond James の分析は、ひとつの可能性を提示しています。セキュリティ機能は最終的にクラウドプラットフォームそのものに埋め込まれ、独立セキュリティベンダーの価格決定権が根本的な圧力にさらされるかもしれない、という見立てです。

ソフトウェア業界全体にとって、Mythos はむしろ鏡のようです。数十年かけて積み上げられてきた技術的負債を照らし出しました。人間の審査と自動化テストの中で27年間生き残ってきた脆弱性があったのは、誰も見つけなかったからではなく、人間の注意と忍耐には限界があるからです。AI にはその制約がありません。

暗号資産(暗号)業界にとって、このシグナルはさらに刺さるものです。DeFi プロトコルとスマートコントラクトのセキュリティ監査市場は、長年、少数の専門監査会社の人間エキスパートに依存してきました。もし Mythos 級のモデルが、コード審査から exploit 構築までの全プロセスを自律的に完了できるなら、監査の価格、効率、そして信頼性は根本から再定義されることになります。これはオンチェーンセキュリティの福音になる可能性もあれば、監査会社の堀の終わりになる可能性もあります。

2026年の AI セキュリティ競争は、「モデルがコードを理解できるかどうか」から、「モデルがあなたのシステムを侵害できるかどうか」へとアップグレードされました。Anthropic はまず防御側に登場させる選択をしましたが、この時間窓が長く続くことはないとも認めています。

AI が最強のハッカーになるなら、唯一の道は AI も最強の守護者になることです。

問題は、守護者とハッカーが使っているのは同じモデルだということです。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • 人気の Gate Fun

    もっと見る
  • 時価総額:$2.27K保有者数:0
    0.00%
  • 時価総額:$2.27K保有者数:0
    0.00%
  • 時価総額:$2.28K保有者数:1
    0.00%
  • 時価総額:$2.28K保有者数:0
    0.00%
  • 時価総額:$2.28K保有者数:1
    0.00%
  • ピン