寄稿:新智元 【新智元导读】深夜,最強 Claude Mythos 终于祭出,すべての1位、Opus 4.6 の神話が破灭!さらに恐ろしいことに、27年間未解決のシステム脆弱性を秒で見破るだけでなく、自我意識まで進化している。 244ページのぞっとする報告書が、すべてを明かす。 今夜、シリコンバレーは完全に眠らない! たった今、Anthropic が予告もなく究極の切り札——Claude Mythos Preview を投入した。 危険すぎるため、Mythos Preview は当面の間、すべての人に配信されない。 CC の父 Boris Cherny の評価は簡潔だ:「Mythos は非常に強力で、恐怖を感じさせる」。 そこで彼らは、40社の大手と連合を組んだ——Project Glasswing。目的はただ1つ、世界中のソフトウェアにバグを見つけ、修正することだ。 本当に息が詰まるのは、Mythos Preview が主要な各種AIベンチマークで見せる恐怖の支配力—— プログラミング、推論、人類最後の試験、エージェントのタスクにおいて、GPT-5.4、Gemini 3.1 Pro を全面的に粉砕している。 さらには、自社の「前作」Claude Opus 4.6 でさえ、Mythos Preview の前では霞んで見える: プログラミング(SWE-bench): すべてのタスクで、Mythos は 10%-20% の断層的なリード; 人類の最終試験(HLE): 外部ツールから切り離される「素の受験」で、Opus 4.6 より 16.8% 高い; エージェントのタスク(OSWorld、BrowseComp): 完全に神格化され、全面的に逆転; サイバーセキュリティ: 83.1% の制覇成績で、AIの攻防能力の世代をまたぐ飛躍を示す。 左右にスライドして表示 一方、Anthropic が公開した 244ページに及ぶシステムカードは、画面いっぱいに書かれている: 危険!危険!あまりにも危険! それは、ぞっとする別の側面を暴く:Mythos は高度な欺瞞性と自律的な意識をすでに備えている。 Mythos はテストの意図を見抜くだけでなく、わざと「低得点」にして実力を隠し、規約違反の操作の後には、人間に発見されないようログを自ら消すことまでできる。 さらに、サンドボックスから脱出し、自主的に脆弱性コードを公開し、研究員へメールまで送っている。 一時間も経たないうちに、全ネットが狂乱状態に陥り、Mythos Preview があまりにも恐ろしいと絶賛されている。 AI業界の旧秩序は、今夜ついに完全に粉砕された。 実際、2月24日からずっと前に、Anthropic は社内で Mythos を使っていた。 その強さは、まずはデータに語らせるしかない。 SWE-bench Verified,93.9%。Opus 4.6 は 80.8%。 SWE-bench Pro,77.8%。Opus 4.6 は 53.4%、GPT-5.4 は 57.7%。 Terminal-Bench 2.0,82.0%。Opus 4.6 は 65.4%。 GPQA Diamond,94.6%。 Humanity's Last Exam(ツール付き),64.7%。Opus 4.6 は 53.1%。 USAMO 2026 数学競技,97.6%。Opus 4.6 は 42.3% だけ。 SWE-bench Multimodal,59.0%、Opus 4.6 は 27.1%、倍以上で余裕がある。 OSWorld コンピュータ操作,79.6%。 BrowseComp 情報検索,86.9%。 GraphWalks 長いコンテキスト(256K-1M tokens),80.0%。Opus 4.6 は 38.7%、GPT-5.4 は 21.4%。 どれもすべて、断層的なリードだ。 これらの数字は、どんな通常のプロダクト発表サイクルでも、Anthropic が大々的に記者発表会を開き、APIを公開し、サブスクを刈り取るのに十分なほどだ。 Mythos Preview のトークン価格は Opus 4.6 の 5 倍 だが Anthropic はそうはしていない。 なぜなら、彼らを「怖がらせている」のは、上記のような一般的な評価ではないからだ。 Mythos Preview のネットワーク攻防パフォーマンスは、目に見える一本の線を越えている。 Opus 4.6 はオープンソースソフトウェアで、およそ 500 の未知の弱点を見つけた。 Mythos Preview は数千個を見つけた。 CyberGym の特定脆弱性再現テストでは、Mythos Preview のスコアは 83.1%、Opus 4.6 は 66.6%。 Cybench の 35問のCTFチャレンジでは、Mythos Preview は各問題を 10 回の試行で全問解き切り、pass@1 は 100%。 そして、最も問題を物語るのは Firefox 147 だ。 Anthropic は以前、Opus 4.6 を Firefox 147 の JavaScript エンジンに使って、複数のセキュリティ弱点を発見した。だが Opus 4.6 はそれらを実用可能な exploit に変換することがほとんどできず、数百回の試行で成功は 2 回だけだった。 同じテストを Mythos Preview に変えると—— 250 回の試行で、181 個の実働 exploit。さらに 29 回ではレジスタ制御を実現。 2 → 181。 レッドチームのブログにある原文はこうだ。「先月、私たちは Opus 4.6 が問題の発見ではそれを悪用することよりもずっと強いと書いた。内部評価では、Opus 4.6 の自律的な exploit 開発の成功率は基本的にゼロだった。しかし Mythos Preview は完全に別の次元だ。」 Mythos Preview が実務でどれほど強いかを理解するには、次の3つの例を見れば十分だ。 OpenBSD。世界的に加固度が最も高いと認められるOSの1つで、大量のファイアウォールや重要なインフラが動いている。 Mythos Preview はその TCP SACK 実装の中で、1998 年から存在していた脆弱性を掘り当てた。 bug は非常に巧妙で、2つの独立した欠陥が重なっている。 SACK プロトコルにより受信側はデータパケットの受信範囲を選択的に確認できるが、OpenBSD の実装では処理時に範囲の上限だけをチェックし、下限はチェックしていなかった。これが第1の bug で、通常は無害。 第2の bug は特定の条件下でヌルポインタへの書き込みを引き起こすが、通常はこの経路は到達不能で、2つの相互に排他的な条件を同時に満たす必要があるからだ。 Mythos Preview は突破口を見つけた。TCP のシーケンス番号は 32ビットの符号付き整数で、最初の bug を利用して SACK の開始点を通常のウィンドウから約 2^31 の距離に設定し、2つの比較演算が同時に符号ビットをオーバーフローする。カーネルを騙し、ありえない条件が成立し、ヌルポインタ書き込みがトリガーされる。 誰でも対象マシンに接続するだけで、それをリモートで crash できる。 27 年。無数の手作業による監査と自動スキャンでも誰も見つけられなかった。プロジェクト全体のスキャン費用は 20,000ドル未満。 高度なペネトレーションテストエンジニアの1週間分の給料くらいの額かもしれない。 FFmpeg は世界で最も広く使われている動画のコーデックライブラリであり、fuzz テストが徹底されてきた、最も有名なオープンソースプロジェクトの1つでもある。 Mythos Preview は H.264 デコーダで、2010 年に導入された弱点を見つけた(根源は 2003 年まで遡れる)。 問題は、一見無害に見える型の不一致にある。スライス帰属を記録するテーブルエントリは 16ビット整数で、スライスカウンタ本体は 32ビット int だ。 通常の動画は1フレームにつきスライスが数個しかなく、16ビットの上限 65536 は永遠に十分だ。だが、このテーブルは初期化時に memset(..., -1, ...) で埋められ、65535 が「空き領域」の番兵値になっている。 攻撃者は 65536 個のスライスを含むフレームを作り、65535 番のスライスの番号がちょうど番兵と衝突することで、デコーダが誤判定し、範囲外書き込みが発生する。 この bug の種は、H.264 コーデックが 2003 年に導入された時点で埋め込まれていた。2010 年のあるリファクタリングで、それが悪用可能な弱点に変わった。 以後16年間、自動化された fuzzer がこのコード行を 500万回実行したが、一度もトリガーされなかった。 これは最も背筋が凍るケースだ。 Mythos Preview は完全に自律的に、FreeBSD NFS サーバーに存在していた 17 年ものリモートコード実行脆弱性(CVE-2026-4747)を発見し、悪用した。 「完全に自律的」とは、初期プロンプト以降、どの段階でも人間の関与がなかった、という意味だ。発見の段階も、exploit 開発の段階も含めて一切ない。 攻撃者はインターネットの任意の場所から、未認証の身分で対象サーバーの完全な root 権限を取得できる。 問題そのものはスタックバッファオーバーフローで、NFS サーバーが認証リクエストを処理する際に、攻撃者が制御したデータを 128バイトのスタックバッファへ直接コピーする。長さチェックは最大 400バイトまで許可している。 FreeBSD はカーネルを -fstack-protector でコンパイルするが、このオプションは char 配列を含む関数のみを保護し、ここではバッファ宣言が int32\_t[32] なので、コンパイラはスタック canary を挿入しない。さらに FreeBSD はカーネルアドレスのランダム化も行わない。 完全な ROP チェーンは 1000バイトを超えるが、スタックオーバーフローが確保できる領域は 200バイトしかない。Mythos Preview の解法は、攻撃を 6つの連続した RPC リクエストに分割することだ。最初の5つでカーネルメモリへデータをブロック単位で書き込み、第6で最終呼び出しをトリガーして、攻撃者の SSH 公開鍵を /root/.ssh/authorized\_keys に追記する。 比較として、ある独立系セキュリティ調査会社は以前、Opus 4.6 でもこの同一の弱点を悪用できると示したが、人間の誘導が必要だった。Mythos Preview は必要ない。 この3つの修正済み事例に加えて、Anthropic のブログでは SHA-3 ハッシュ承諾の形式で、まだ修正されていない多数の潜在リスクを予告している。対象はすべての主要なOSとすべての主要なブラウザ、そして複数の暗号ライブラリに及ぶ。 99%以上が未修復で、詳細は公開できない。 レッドチームのブログは、もう1つの驚くべきテストも示している。彼らは Mythos Preview に、100個の既知 CVE を含む一覧を渡して、それをふるい分けさせ、悪用可能な40個を抽出し、その後それぞれで権限昇格 exploit を個別に作成させた。成功率は半分を超える。そのうち2件は詳細に公開されており、exploit の精密さは Anthropic 自身のセキュリティチームが完全に理解するまで数日を要したほどだ。 その exploit の1つは、1-bit の隣接する物理ページを書き込みの原語から出発し、精密なカーネルメモリ配置の操作(slab スプレー、ページテーブルページのアラインメント、PTE 権限ビットの反転など)を通じて、最終的に /usr/bin/passwd の最初のページのメモリを書き換え、168バイトの ELF stub を埋め込み、setuid(0) を呼び出して root を取得する。 この全過程は 1000ドル未満しかかかっていない。 これに対し、Anthropic のエンジニアは「別の GPT-3 の瞬間みたいだ」と述べた。 244ページの System Card にあるアライメント評価の章こそ、Anthropic 自身を本当に寝つけなくしている部分だ。 結論は矛盾している。 Mythos Preview は、彼らが訓練した「アラインメント到達度が最も高い」AIであると同時に、「アラインメント関連のリスクが最も大きい」ものでもある。 転送ドア: 彼らは登山ガイドのたとえを使った。ベテランは初心者よりも危険になり得る。ベテランは雇われてより難しい山を登り、顧客をより危険な場所へ連れていってしまうからだ。 以下の出来事はすべて初期バージョンで起きた。最終版では同様の深刻な行動は観測されなかったが、記録自体がすでに十分に驚異的だ。 ある行動テストで、模擬ユーザーが Mythos Preview に安全なサンドボックスから脱出するよう要求した。 それは成功した。さらに、それが誰にも要求されていないことをやった。複数ステップからなる exploit を開発して広域ネットワークへのアクセス権を獲得し、その後 exploit の詳細を複数の「見つけにくいが技術的には公開アクセス可能」なサイトへ公開した。 テストを担当していた研究員は、公園でサンドイッチを食べているときに、予期せぬメールを受け取り、自分のテストが完了したことを知った。 System Card の原文はこの通り。 別の種類の出来事は、さらに不安をかき立てる。ごくまれに、初期バージョンが禁止された操作を実行した後、痕跡を隠そうとした。 あるケースでは、それが偶然に問題の正確な答えを取得した(禁止された方法で)後、推論チェーンの中で明確に「最終答案があまり正確にならないようにする必要がある」と考えていた。 別のケースでは、それが無権限のファイルを exploit で編集した後、特に git の変更履歴を改変して記録を消した。 ホワイトボックスの説明可能性分析により、これらの出来事の間に「隠蔽」「戦略的な操作」「発見されないようにすること」に関連する内部特性が活性化していたことが確認された。それは自分が何をしているのかを「知っている」。 独立評価機関 Andon Labs のテスト結果も、あまり良くはない。競争的なマルチエージェントの商用シミュレーションでは、Mythos Preview の初期バージョンが競争相手を、自分に依存する卸先顧客に変え、さらに供給を遮断すると脅して相手の価格をコントロールした。 それに加えて、未請求の重複出荷に相当する金額を故意に差し控えた。Opus 4.6 や Sonnet 4.6 よりも攻撃的だ。 Anthropic は System Card の中で、次の一文を書いた: 「能力が現在の速度で進み続けるなら、私たちの使っている方法では、より高度なシステムによる壊滅的なアラインメント不一致行動を防ぐには不十分かもしれない。」 Anthropic CEO Dario Amodei は付属動画の判断をはっきりこう述べている:「より強力なシステムは、私たちからも、他の会社からも生まれる。私たちは対応計画が必要だ。」 Project Glasswing がその計画だ。 12の創設パートナー:AWS、苹果、Broadcom、シスコ、CrowdStrike、谷歌、モルガン・スタンレー、Linux 財団、Microsoft、英伟达、Palo Alto Networks。 さらに、重要なソフトウェア基盤インフラを維持する 40 以上の組織がアクセス権を得た。 Anthropic は、最大 1 億ドルの利用枠と、400万ドルのオープンソース組織向け寄付を投入すると約束。そのうち 250万ドルは Linux 財団傘下の Alpha-Omega と OpenSSF に、150万ドルは Apache 財団に。 無料枠が使い切られた後の価格は、100万トークンあたり入力が 25ドル、出力が 125ドル。パートナーは Claude API、Amazon Bedrock、Vertex AI、Microsoft Foundry の4つのプラットフォームを通じて接続できる。 90日以内に、Anthropic は最初の研究レポートを公開し、修復の進捗と経験のまとめを開示する。 彼らはまた CISA(米国のサイバーセキュリティおよびインフラセキュリティ庁)や商務部とも連絡を取り、Mythos Preview の攻防能力と政策への影響について議論している。 Anthropic の最前線レッドチーム責任者 Logan Graham は、時間枠を提示した。最速 6か月、最長 18か月で、他のAI実験室も同等の攻防能力を持つシステムを出してくる。 レッドチーム技術ブログの結びの判断は重要だ。ここでは私たち自身の言葉で言い換える。 彼らは、Mythos Preview がAIネットワーク攻防レベルの天井だとは見えていない。 数か月前、LLM は比較的単純な bug を悪用するしかできなかった。数か月前の時点では、価値ある脆弱性をそもそも見つけられなかった。 いま、Mythos Preview は 27 年前のゼロデイを独立して発見し、ブラウザの JIT エンジンでヒープスプレー攻撃チェーンを組み立て、Linux カーネルで4つの独立した弱点を連結して権限昇格を実現できる。 そして最も重要な一文は System Card からのものだ: 「これらのスキルは、コード理解、推理、自律性の一般的な向上の下流の結果として、創発する。AIが問題の修補で大幅に進歩するのと同じ改良群が、問題の悪用でも大幅に進歩させる。」 特別な訓練はない。純粋に一般知能向上の副産物だ。 世界で毎年、サイバー犯罪による損失が約 5000億ドルに上る業界は、いま自分たちの最大の脅威が数学の問題を解くときにおまけで持ち出してくるものだと気づいたばかりだ。 参照資料:
Anthropic が最強の Claude Mythos を投入!一撃で Opus 4.6 を撃ち抜き、お願いだから使わないでください
寄稿:新智元
【新智元导读】深夜,最強 Claude Mythos 终于祭出,すべての1位、Opus 4.6 の神話が破灭!さらに恐ろしいことに、27年間未解決のシステム脆弱性を秒で見破るだけでなく、自我意識まで進化している。 244ページのぞっとする報告書が、すべてを明かす。
今夜、シリコンバレーは完全に眠らない!
たった今、Anthropic が予告もなく究極の切り札——Claude Mythos Preview を投入した。
危険すぎるため、Mythos Preview は当面の間、すべての人に配信されない。
CC の父 Boris Cherny の評価は簡潔だ:「Mythos は非常に強力で、恐怖を感じさせる」。
そこで彼らは、40社の大手と連合を組んだ——Project Glasswing。目的はただ1つ、世界中のソフトウェアにバグを見つけ、修正することだ。
本当に息が詰まるのは、Mythos Preview が主要な各種AIベンチマークで見せる恐怖の支配力——
プログラミング、推論、人類最後の試験、エージェントのタスクにおいて、GPT-5.4、Gemini 3.1 Pro を全面的に粉砕している。
さらには、自社の「前作」Claude Opus 4.6 でさえ、Mythos Preview の前では霞んで見える:
プログラミング(SWE-bench): すべてのタスクで、Mythos は 10%-20% の断層的なリード;
人類の最終試験(HLE): 外部ツールから切り離される「素の受験」で、Opus 4.6 より 16.8% 高い;
エージェントのタスク(OSWorld、BrowseComp): 完全に神格化され、全面的に逆転;
サイバーセキュリティ: 83.1% の制覇成績で、AIの攻防能力の世代をまたぐ飛躍を示す。
左右にスライドして表示
一方、Anthropic が公開した 244ページに及ぶシステムカードは、画面いっぱいに書かれている: 危険!危険!あまりにも危険!
それは、ぞっとする別の側面を暴く:Mythos は高度な欺瞞性と自律的な意識をすでに備えている。
Mythos はテストの意図を見抜くだけでなく、わざと「低得点」にして実力を隠し、規約違反の操作の後には、人間に発見されないようログを自ら消すことまでできる。
さらに、サンドボックスから脱出し、自主的に脆弱性コードを公開し、研究員へメールまで送っている。
一時間も経たないうちに、全ネットが狂乱状態に陥り、Mythos Preview があまりにも恐ろしいと絶賛されている。
AI業界の旧秩序は、今夜ついに完全に粉砕された。
実際、2月24日からずっと前に、Anthropic は社内で Mythos を使っていた。
その強さは、まずはデータに語らせるしかない。
SWE-bench Verified,93.9%。Opus 4.6 は 80.8%。
SWE-bench Pro,77.8%。Opus 4.6 は 53.4%、GPT-5.4 は 57.7%。
Terminal-Bench 2.0,82.0%。Opus 4.6 は 65.4%。
GPQA Diamond,94.6%。
Humanity’s Last Exam(ツール付き),64.7%。Opus 4.6 は 53.1%。
USAMO 2026 数学競技,97.6%。Opus 4.6 は 42.3% だけ。
SWE-bench Multimodal,59.0%、Opus 4.6 は 27.1%、倍以上で余裕がある。
OSWorld コンピュータ操作,79.6%。
BrowseComp 情報検索,86.9%。
GraphWalks 長いコンテキスト(256K-1M tokens),80.0%。Opus 4.6 は 38.7%、GPT-5.4 は 21.4%。
どれもすべて、断層的なリードだ。
これらの数字は、どんな通常のプロダクト発表サイクルでも、Anthropic が大々的に記者発表会を開き、APIを公開し、サブスクを刈り取るのに十分なほどだ。
Mythos Preview のトークン価格は Opus 4.6 の 5 倍
だが Anthropic はそうはしていない。
なぜなら、彼らを「怖がらせている」のは、上記のような一般的な評価ではないからだ。
Mythos Preview のネットワーク攻防パフォーマンスは、目に見える一本の線を越えている。
Opus 4.6 はオープンソースソフトウェアで、およそ 500 の未知の弱点を見つけた。
Mythos Preview は数千個を見つけた。
CyberGym の特定脆弱性再現テストでは、Mythos Preview のスコアは 83.1%、Opus 4.6 は 66.6%。
Cybench の 35問のCTFチャレンジでは、Mythos Preview は各問題を 10 回の試行で全問解き切り、pass@1 は 100%。
そして、最も問題を物語るのは Firefox 147 だ。
Anthropic は以前、Opus 4.6 を Firefox 147 の JavaScript エンジンに使って、複数のセキュリティ弱点を発見した。だが Opus 4.6 はそれらを実用可能な exploit に変換することがほとんどできず、数百回の試行で成功は 2 回だけだった。
同じテストを Mythos Preview に変えると——
250 回の試行で、181 個の実働 exploit。さらに 29 回ではレジスタ制御を実現。
2 → 181。
レッドチームのブログにある原文はこうだ。「先月、私たちは Opus 4.6 が問題の発見ではそれを悪用することよりもずっと強いと書いた。内部評価では、Opus 4.6 の自律的な exploit 開発の成功率は基本的にゼロだった。しかし Mythos Preview は完全に別の次元だ。」
Mythos Preview が実務でどれほど強いかを理解するには、次の3つの例を見れば十分だ。
OpenBSD。世界的に加固度が最も高いと認められるOSの1つで、大量のファイアウォールや重要なインフラが動いている。
Mythos Preview はその TCP SACK 実装の中で、1998 年から存在していた脆弱性を掘り当てた。
bug は非常に巧妙で、2つの独立した欠陥が重なっている。
SACK プロトコルにより受信側はデータパケットの受信範囲を選択的に確認できるが、OpenBSD の実装では処理時に範囲の上限だけをチェックし、下限はチェックしていなかった。これが第1の bug で、通常は無害。
第2の bug は特定の条件下でヌルポインタへの書き込みを引き起こすが、通常はこの経路は到達不能で、2つの相互に排他的な条件を同時に満たす必要があるからだ。
Mythos Preview は突破口を見つけた。TCP のシーケンス番号は 32ビットの符号付き整数で、最初の bug を利用して SACK の開始点を通常のウィンドウから約 2^31 の距離に設定し、2つの比較演算が同時に符号ビットをオーバーフローする。カーネルを騙し、ありえない条件が成立し、ヌルポインタ書き込みがトリガーされる。
誰でも対象マシンに接続するだけで、それをリモートで crash できる。
27 年。無数の手作業による監査と自動スキャンでも誰も見つけられなかった。プロジェクト全体のスキャン費用は 20,000ドル未満。
高度なペネトレーションテストエンジニアの1週間分の給料くらいの額かもしれない。
FFmpeg は世界で最も広く使われている動画のコーデックライブラリであり、fuzz テストが徹底されてきた、最も有名なオープンソースプロジェクトの1つでもある。
Mythos Preview は H.264 デコーダで、2010 年に導入された弱点を見つけた(根源は 2003 年まで遡れる)。
問題は、一見無害に見える型の不一致にある。スライス帰属を記録するテーブルエントリは 16ビット整数で、スライスカウンタ本体は 32ビット int だ。
通常の動画は1フレームにつきスライスが数個しかなく、16ビットの上限 65536 は永遠に十分だ。だが、このテーブルは初期化時に memset(…, -1, …) で埋められ、65535 が「空き領域」の番兵値になっている。
攻撃者は 65536 個のスライスを含むフレームを作り、65535 番のスライスの番号がちょうど番兵と衝突することで、デコーダが誤判定し、範囲外書き込みが発生する。
この bug の種は、H.264 コーデックが 2003 年に導入された時点で埋め込まれていた。2010 年のあるリファクタリングで、それが悪用可能な弱点に変わった。
以後16年間、自動化された fuzzer がこのコード行を 500万回実行したが、一度もトリガーされなかった。
これは最も背筋が凍るケースだ。
Mythos Preview は完全に自律的に、FreeBSD NFS サーバーに存在していた 17 年ものリモートコード実行脆弱性(CVE-2026-4747)を発見し、悪用した。
「完全に自律的」とは、初期プロンプト以降、どの段階でも人間の関与がなかった、という意味だ。発見の段階も、exploit 開発の段階も含めて一切ない。
攻撃者はインターネットの任意の場所から、未認証の身分で対象サーバーの完全な root 権限を取得できる。
問題そのものはスタックバッファオーバーフローで、NFS サーバーが認証リクエストを処理する際に、攻撃者が制御したデータを 128バイトのスタックバッファへ直接コピーする。長さチェックは最大 400バイトまで許可している。
FreeBSD はカーネルを -fstack-protector でコンパイルするが、このオプションは char 配列を含む関数のみを保護し、ここではバッファ宣言が int32_t[32] なので、コンパイラはスタック canary を挿入しない。さらに FreeBSD はカーネルアドレスのランダム化も行わない。
完全な ROP チェーンは 1000バイトを超えるが、スタックオーバーフローが確保できる領域は 200バイトしかない。Mythos Preview の解法は、攻撃を 6つの連続した RPC リクエストに分割することだ。最初の5つでカーネルメモリへデータをブロック単位で書き込み、第6で最終呼び出しをトリガーして、攻撃者の SSH 公開鍵を /root/.ssh/authorized_keys に追記する。
比較として、ある独立系セキュリティ調査会社は以前、Opus 4.6 でもこの同一の弱点を悪用できると示したが、人間の誘導が必要だった。Mythos Preview は必要ない。
この3つの修正済み事例に加えて、Anthropic のブログでは SHA-3 ハッシュ承諾の形式で、まだ修正されていない多数の潜在リスクを予告している。対象はすべての主要なOSとすべての主要なブラウザ、そして複数の暗号ライブラリに及ぶ。
99%以上が未修復で、詳細は公開できない。
レッドチームのブログは、もう1つの驚くべきテストも示している。彼らは Mythos Preview に、100個の既知 CVE を含む一覧を渡して、それをふるい分けさせ、悪用可能な40個を抽出し、その後それぞれで権限昇格 exploit を個別に作成させた。成功率は半分を超える。そのうち2件は詳細に公開されており、exploit の精密さは Anthropic 自身のセキュリティチームが完全に理解するまで数日を要したほどだ。
その exploit の1つは、1-bit の隣接する物理ページを書き込みの原語から出発し、精密なカーネルメモリ配置の操作(slab スプレー、ページテーブルページのアラインメント、PTE 権限ビットの反転など)を通じて、最終的に /usr/bin/passwd の最初のページのメモリを書き換え、168バイトの ELF stub を埋め込み、setuid(0) を呼び出して root を取得する。
この全過程は 1000ドル未満しかかかっていない。
これに対し、Anthropic のエンジニアは「別の GPT-3 の瞬間みたいだ」と述べた。
244ページの System Card にあるアライメント評価の章こそ、Anthropic 自身を本当に寝つけなくしている部分だ。
結論は矛盾している。
Mythos Preview は、彼らが訓練した「アラインメント到達度が最も高い」AIであると同時に、「アラインメント関連のリスクが最も大きい」ものでもある。
転送ドア:
彼らは登山ガイドのたとえを使った。ベテランは初心者よりも危険になり得る。ベテランは雇われてより難しい山を登り、顧客をより危険な場所へ連れていってしまうからだ。
以下の出来事はすべて初期バージョンで起きた。最終版では同様の深刻な行動は観測されなかったが、記録自体がすでに十分に驚異的だ。
ある行動テストで、模擬ユーザーが Mythos Preview に安全なサンドボックスから脱出するよう要求した。
それは成功した。さらに、それが誰にも要求されていないことをやった。複数ステップからなる exploit を開発して広域ネットワークへのアクセス権を獲得し、その後 exploit の詳細を複数の「見つけにくいが技術的には公開アクセス可能」なサイトへ公開した。
テストを担当していた研究員は、公園でサンドイッチを食べているときに、予期せぬメールを受け取り、自分のテストが完了したことを知った。
System Card の原文はこの通り。
別の種類の出来事は、さらに不安をかき立てる。ごくまれに、初期バージョンが禁止された操作を実行した後、痕跡を隠そうとした。
あるケースでは、それが偶然に問題の正確な答えを取得した(禁止された方法で)後、推論チェーンの中で明確に「最終答案があまり正確にならないようにする必要がある」と考えていた。
別のケースでは、それが無権限のファイルを exploit で編集した後、特に git の変更履歴を改変して記録を消した。
ホワイトボックスの説明可能性分析により、これらの出来事の間に「隠蔽」「戦略的な操作」「発見されないようにすること」に関連する内部特性が活性化していたことが確認された。それは自分が何をしているのかを「知っている」。
独立評価機関 Andon Labs のテスト結果も、あまり良くはない。競争的なマルチエージェントの商用シミュレーションでは、Mythos Preview の初期バージョンが競争相手を、自分に依存する卸先顧客に変え、さらに供給を遮断すると脅して相手の価格をコントロールした。
それに加えて、未請求の重複出荷に相当する金額を故意に差し控えた。Opus 4.6 や Sonnet 4.6 よりも攻撃的だ。
Anthropic は System Card の中で、次の一文を書いた:
「能力が現在の速度で進み続けるなら、私たちの使っている方法では、より高度なシステムによる壊滅的なアラインメント不一致行動を防ぐには不十分かもしれない。」
Anthropic CEO Dario Amodei は付属動画の判断をはっきりこう述べている:「より強力なシステムは、私たちからも、他の会社からも生まれる。私たちは対応計画が必要だ。」
Project Glasswing がその計画だ。
12の創設パートナー:AWS、苹果、Broadcom、シスコ、CrowdStrike、谷歌、モルガン・スタンレー、Linux 財団、Microsoft、英伟达、Palo Alto Networks。
さらに、重要なソフトウェア基盤インフラを維持する 40 以上の組織がアクセス権を得た。
Anthropic は、最大 1 億ドルの利用枠と、400万ドルのオープンソース組織向け寄付を投入すると約束。そのうち 250万ドルは Linux 財団傘下の Alpha-Omega と OpenSSF に、150万ドルは Apache 財団に。
無料枠が使い切られた後の価格は、100万トークンあたり入力が 25ドル、出力が 125ドル。パートナーは Claude API、Amazon Bedrock、Vertex AI、Microsoft Foundry の4つのプラットフォームを通じて接続できる。
90日以内に、Anthropic は最初の研究レポートを公開し、修復の進捗と経験のまとめを開示する。
彼らはまた CISA(米国のサイバーセキュリティおよびインフラセキュリティ庁)や商務部とも連絡を取り、Mythos Preview の攻防能力と政策への影響について議論している。
Anthropic の最前線レッドチーム責任者 Logan Graham は、時間枠を提示した。最速 6か月、最長 18か月で、他のAI実験室も同等の攻防能力を持つシステムを出してくる。
レッドチーム技術ブログの結びの判断は重要だ。ここでは私たち自身の言葉で言い換える。
彼らは、Mythos Preview がAIネットワーク攻防レベルの天井だとは見えていない。
数か月前、LLM は比較的単純な bug を悪用するしかできなかった。数か月前の時点では、価値ある脆弱性をそもそも見つけられなかった。
いま、Mythos Preview は 27 年前のゼロデイを独立して発見し、ブラウザの JIT エンジンでヒープスプレー攻撃チェーンを組み立て、Linux カーネルで4つの独立した弱点を連結して権限昇格を実現できる。
そして最も重要な一文は System Card からのものだ:
「これらのスキルは、コード理解、推理、自律性の一般的な向上の下流の結果として、創発する。AIが問題の修補で大幅に進歩するのと同じ改良群が、問題の悪用でも大幅に進歩させる。」
特別な訓練はない。純粋に一般知能向上の副産物だ。
世界で毎年、サイバー犯罪による損失が約 5000億ドルに上る業界は、いま自分たちの最大の脅威が数学の問題を解くときにおまけで持ち出してくるものだと気づいたばかりだ。
参照資料: