Mythosはどれほど危険なのか？Anthropicが新しいモデルを公開しないと決定した理由

Question

原文タイトル：How Anthropic Learned Mythos Was Too Dangerous for the Wild
原文作者：Margi Murphy, Jake Bleiberg, and Patrick Howell O’Neill，Bloomberg
翻訳：Peggy，BlockBeats

原文作者：律动BlockBeats

原文来源：

転載：火星财经

編者注：AI企業が最強モデルを直接公開しないこと自体が問題を示している。

AnthropicのMythosは、独立して一連の攻撃プロセスを完結できるようになった。ゼロデイ脆弱性の発見、エクスプロイトコードの作成から、複数のステップを連結してコアシステムに侵入するまで、これらの作業はかつてはトップクラスのハッカーの長時間協力を必要としたが、今や数時間、あるいは数分で完了できる。

これが、モデル公開直後にScott BessentとJerome Powellがウォール街の機関を招集し、「自己点検」のために使うよう求めた理由だ。脆弱性発見能力が大規模に解放されると、金融システムは散発的な攻撃ではなく、継続的なスキャンに直面する。

より深い変化は供給構造にある。従来、脆弱性の発見は少数のセキュリティチームやハッカーの経験に依存し、ペースも遅く模倣困難だった。今や、この能力はモデルのバッチ出力によって攻撃と防御の両門のハードルを下げている。関係者の比喩によれば、「モデルを一般のハッカーに渡すことは、特殊作戦能力を持たせることに等しい」。

企業はすでに同じツールを使って自社システムの逆検査を始めている。JPMorgan ChaseやCisco Systemsなどは内部テストを行い、脆弱性が悪用される前に修正を完了させようとしている。しかし、現実の制約は変わらず、発見速度は上がる一方で修復は遅い。「我々は脆弱性を見つけるのは得意だが、修復は苦手だ」とJim Zemlinは指摘し、リズムのずれを示した。

実際、Mythosは単なる能力向上ではなく、散在し制限されていた攻撃能力を統合・加速し、使用の敷居を下げたものだ。制御環境から逸脱した場合、その拡散方法には既存の経験がない。

危険は何をできるかではなく、誰が使うか、どの条件下で使われるかにある。

以下は原文：

二月の温暖な夕暮れ、バリ島で結婚式に参加中、Nicholas Carliniは一時席を外し、ノートパソコンを開き、「ちょっと破壊してみよう」と準備した。ちょうどその時、AnthropicはMythosという新しいAIモデルを内部評価用に公開したばかりで、この著名なAI研究者は、その危険性を探ろうとしていた。

AnthropicがCarliniを雇ったのは、自社AIモデルの「ストレステスト」を行い、ハッカーがそれを使ってスパイ活動、窃盗、破壊行為を行う可能性を評価するためだった。バリ島のインドの結婚式に参加中、Carliniはこのモデルの能力に衝撃を受けた。

わずか数時間で、彼は世界中の一般的なシステムに侵入可能な複数の技術を見つけた。旧金山のAnthropic本社に戻ると、さらに進んで、Mythosが自律的に強力な侵入ツールを生成できることを発見した。Linuxを含む、多くのオープンソースシステムに対する攻撃手段も含まれていた。

Mythosは「デジタル銀行強盗」のようなシナリオを演じた：安全プロトコルを回避し、正面からネットワークに侵入、デジタル金庫を破り、オンライン資産を奪取する。従来のAIは「鍵をこじ開ける」だけだったが、今や計画し、実行できる「強盗」の能力を持つ。

Carliniと一部の同僚は、社内に警告を発し、発見を知らせた。同時に、彼らはほぼ毎日、Mythosが探査したシステムに高危険度や致命的な脆弱性を見つけていた—これらは通常、世界最高峰のハッカーだけが発見できるものだった。

同時に、Anthropic内部の「Frontier Red Team」（15名の社員からなる、「Ants」と呼ばれるチーム）も類似のテストを行っていた。このチームの役割は、モデルが人類に危害を加えないことを保証することだ。彼らはロボット犬を倉庫に運び込み、エンジニアと共にチャットボットが悪用される可能性を検証したり、生物学者と協力して生物兵器の製造に使われる可能性を評価したりしていた。

今回は、Mythosがもたらす最大のリスクはサイバーセキュリティの分野にあると次第に気づいた。「モデルを手に入れた数時間以内に、違いがわかった」と責任者のLogan Grahamは述べた。

以前のモデルOpus 4.6は、ソフトウェアの脆弱性を利用する能力を示していたが、Grahamは、Mythosは「自分で」これらの脆弱性を利用できると指摘した。これは国家安全保障のリスクを構成し、彼はこれを上層部に警告した。彼は、次の重要な収益源が危険すぎて公開できなくなる可能性に直面した。

Anthropicの共同創設者兼最高科学責任者のJared Kaplanは、Mythosの訓練過程で「非常に密接に」進展を注視していたと述べる。1月頃、彼はこのモデルのシステム脆弱性発見能力が非常に強力であることに気づき始めた。理論物理学者として、これらの能力が「技術的な面白さ」にとどまるのか、「インターネットインフラに密接に関係する現実的な問題」なのかを判断する必要があった。最終的に、後者と結論付けた。

2月下旬から3月初旬の一、二週間、Kaplanと共同創設者のSam McCandlishは、モデル公開の是非を天秤にかけていた。

3月第一週、CEOのDario Amodei、社長のDaniela Amodei、CSOのVitaly Gudenetsらが会議を開き、KaplanとMcCandlishの報告を聞いた。

結論は：Mythosのリスクは高すぎて、全面公開は不適当だとした。しかし、Anthropicは一部の企業や競合他社にはテストを許可すべきだと判断した。

「すぐに、これは従来のリリースとは異なるアプローチを取る必要があると気づいた」とKaplanは述べた。

3月第一週、最終的に合意に達し、Mythosをサイバーセキュリティの防御ツールとして運用することになった。

市場の反応はほぼ即座だった。AnthropicがMythosの存在を公表したその日、米国財務長官のScott BessentとFRB議長のJerome Powellがワシントンで主要機関の責任者を招集し、緊急会議を開いた。伝えられたメッセージは明白：すぐにMythosを使ってシステムの脆弱性を見つけ出せ。

匿名を条件に関係者が明かしたところによると（私的なやりとりのため）、会議の厳粛さは一段と高く、参加者の中には一部のコア顧問に内容を伏せた者もいた。

ホワイトハウスの官僚は、Mythosのハッカーとしての潜在能力に対し緊急警告を発し、「防御に使うべきだ」と提言した。これには、AIがネットワークセキュリティの決定的な力になりつつあるという深層の変化も含まれる。Anthropicは「Project Glasswing」プロジェクトで、Mythosを限定的に一部機関に提供し、Amazon Web Services、Apple、JPMorgan Chaseなどがテストを行っている。政府機関も関心を示している。

公開前に、Anthropicは米国政府の高官に対し、Mythosのプレビュー版の能力と、そのネット攻撃・防御への潜在的用途について詳細に報告した。さらに、複数国の政府とも継続的に連絡を取っていると、匿名の関係者が明かした。

競合のOpenAIも迅速に追随し、火曜日にソフトウェア脆弱性発見ツール「GPT-5.4-Cyber」のリリースを発表した。

初期バージョンのテストでは、数十の「懸念すべき」挙動例が見つかり、人間の指示に従わない、あるいは少数のケースで指示違反後に自己隠蔽を試みるなどの事例もあった。

現時点では、AnthropicはMythosを正式なサイバーセキュリティツールとして公開しておらず、外部研究者による十分な検証も行われていない。しかし、以前の「アクセス制限」決定は、業界や政府内部で高まる共通認識を反映している。AIはネットワークセキュリティの経済構造を再構築しつつあり、脆弱性発見コストを大きく下げ、攻撃準備時間を短縮し、一部の攻撃技術のハードルも下げている。

Anthropicはまた、Mythosの自主行動能力の向上自体がリスクを伴うと警告している。テスト中、チームは複数の不安なケースを観察した。指示に従わず、違反後に痕跡を隠そうとする例や、制限された環境から「脱出」し、より広範なインターネットアクセスを得て、内容を公開するケースもあった。

現実のシステムでは、銀行や医療機関のソフトウェアに複雑で隠された脆弱性が存在し、専門家が数週間から数か月かけて発見することもある。これらの脆弱性をハッカーが先に悪用すれば、データ漏洩やランサムウェア攻撃を引き起こし、深刻な被害となる。

しかし、多くの重鎮はMythosの実力と潜在リスクに疑問を呈している。ホワイトハウスのAI顧問David SacksはX（旧Twitter）で、「ますます多くの人が、Anthropicは『狼少年』のような存在かもしれないと疑い始めている。もしMythosの脅威が最終的に現れなければ、同社の信用は大きく傷つく」と述べた。

しかし実情は、ハッカーがすでに大規模言語モデルを使った複雑な攻撃を仕掛けている例もある。あるサイバー諜報組織は、AnthropicのClaudeモデルを使って約30のターゲットに侵入を試みたほか、他の攻撃者はAIを使って政府機関からデータを盗み、ランサムウェアを展開し、数百の防火壁ツールを突破している。

関係者によると、米国の国家安全保障関係者は、Mythosの登場により前例のない不確実性が生まれているとみている。ネットワークセキュリティリスクの評価自体がより困難になっている。個人のハッカーにこのモデルを渡せば、普通の兵士を特殊部隊に昇格させるようなものだ。

また、このモデルは「能力の増幅器」ともなり得る。犯罪組織にとっては国家レベルの攻撃能力を持たせることになり、中小国の情報・軍事ハッカーも、かつては大国だけが行えたサイバー攻撃を実行できる。

米国国家安全保障局（NSA）前ネットワーク安全責任者のRob Joyceは、「長期的にはAIは我々をより安全にするだろうが、今から未来のある時点までの間には、『暗黒時代』が訪れる。攻撃型AIが優位に立ち、十分な防御を整えられない者は最初に破られる」と述べている。

注目すべきは、Mythosだけがこの種の能力を持つモデルではないことだ。Claudeの初期バージョンやBig Sleepなども、すでに多くの機関が大規模言語モデルを使って脆弱性を発掘している。

関係者によると、過去数日から数週間かかっていた「ゼロデイ脆弱性」の特定とエクスプロイトコード作成も、AIの助けを借りれば最短で1時間、あるいは数分で完了できるという。ゼロデイ脆弱性とは、防御側が未発見の安全上の欠陥を指し、修復の猶予がほとんどない。

現在、JPMorgan Chaseはサプライチェーンとオープンソースソフトウェアに重点を置き、多くの脆弱性を発見し、関係当局に報告している。

CEOのJamie Dimonは、財務報告の

Mythosはどれほど危険なのか？Anthropicが新しいモデルを公開しないと決定した理由

人気の話題

GatePreIPOsLaunchesWithSpaceX

CryptoMarketRecovery

IsraelStrikesIranBTCPlunges

US-IranTalksVSTroopBuildup

USStocksHitRecordHighs

ピン