研究者によると、Anthropicの警告的な神話的発見が市販のAIで再現されている

要約

  • 研究者は、公開されたAIでもAnthropicスタイルの脆弱性悪用が再現可能であると報告。
  • 研究は、脆弱性発見がすでに安価で広くアクセス可能であることを示唆。
  • これらの発見は、AIのサイバー能力が予想以上に早く拡散している可能性を示している。

今月初めにAnthropicがClaude Mythosを発表した際、同モデルは検証済みのテック大手の連合の背後に隠され、一般公開には危険すぎると位置付けられた。財務長官スコット・ベッセントとFRB議長ジェローム・パウエルは、ウォール街のCEOたちと緊急会議を開催した。「脆弱性黙殺(vulnpocalypse)」という言葉もセキュリティ界隈で再浮上した。 そして今、研究者のチームがその物語をさらに複雑にしている。 Vidoc Securityは、Anthropic自身が修正した公開例を用いて、GPT-5.4とClaude Opus 4.6をオープンソースのコーディングエージェント「opencode」内で再現を試みた。Glasswingの招待も、プライベートAPIアクセスも、Anthropicの内部スタックもなしだ。 「私たちは、Anthropicのプライベートスタックではなく、公開モデルを使ってopencode内でMythosの発見を再現しました」と、実験に関わった研究者の一人Dawid Moczadłoは結果を公開後Xで書いた。「AnthropicのMythosリリースを読むより良い方法は… https://t.co/0FFxrc8Sr1 pic.twitter.com/NjqDhsK1LA」 — Dawid Moczadło (@kannthu1) 2026年4月16日

彼らがターゲットにしたケースは、Anthropicが公開資料で強調したものと同じだった:サーバーファイル共有プロトコル、セキュリティ重視OSのネットワークスタック、ほぼすべてのメディアプラットフォームに埋め込まれた動画処理ソフトウェア、そしてWeb上のデジタルIDを検証するために使われる2つの暗号ライブラリ。 GPT-5.4とClaude Opus 4.6は、各3回の実行で2つのバグケースを再現した。Claude Opus 4.6はまた、OpenBSDのバグを独立して3回再発見し、GPT-5.4はそれに対してゼロだった。FFmpegライブラリを使った動画再生や、wolfSSLを用いたデジタル署名処理に関わるバグも部分的に再現され、モデルは正しいコードの表面は見つけたものの、根本原因を特定できなかった。

画像:Vidoc Security

すべてのスキャンは(ファイルあたりのコストを下回り、研究者はAnthropicと同じ脆弱性を見つけながらも、より少ないコストで済ませることができた。

「AIモデルはすでに、探索空間を狭め、実際の手がかりを浮かび上がらせ、時には戦闘テスト済みのコードの完全な根本原因を回復するのに十分な精度を持っている」と、MoczadłoはXで述べた。 彼らのワークフローは一度きりのプロンプトではなく、Anthropic自身が公開したものと同じだった:モデルにコードベースを与え、探索させ、並列化して試行し、信号をフィルタリングする。Vidocチームは同じアーキテクチャをオープンツールで構築した。計画エージェントが各ファイルをチャンクに分割し、検出エージェントが各チャンクで動作し、リポジトリ内の他のファイルを検査して結果を確認または除外した。 各検出プロンプト内の行範囲(例:「1158-1215行に焦点を当てる」)は、研究者が手動で選んだものではなく、前の計画段階の出力だった。ブログ記事はこれを明示している:「このチャンク戦略が各検出エージェントの視野を形成するため、手動でよりキュレーションされたものとして見せたくないからです。」 この研究は、公開モデルがMythosとすべての点で一致していると主張していない。Anthropicのモデルは、FreeBSDのバグを見つけただけでなく、攻撃者が複数のネットワークパケットを横断してコード断片を連結し、リモートでマシンを完全に制御できる攻撃の設計図を構築した。Vidocのモデルは脆弱性を見つけたが、攻撃手段を構築しなかった。そこに本当のギャップがある:穴を見つけることと、それをどう通り抜けるかを正確に知ることの違いだ。 しかし、Moczadłoの主張は、公開モデルが同等に強力だということではない。むしろ、ワークフローの高価な部分がAPIキーを持つ誰でも利用可能になったことだ。「堀はモデルアクセスから検証へと動いている:脆弱性の信号を見つけるのは安くなっているが、それを信頼できるセキュリティ作業に変えるのは依然として難しい。」 Anthropic自身の安全性レポートは、モデルが深刻なサイバーリスクをもたらすかどうかを測るベンチマーク「Cybench」が、「現在の最先端モデルの能力を十分に示すものではなくなった」と認めている。Mythosはこれを完全にクリアしたためだ。同研究所は、同等の能力が他のAI研究所から6〜18ヶ月以内に広がると推定している。 Vidocの研究は、その発見側の側面がすでにゲートのない外部でも利用可能になっていることを示唆している。彼らの完全なプロンプト抜粋、モデル出力、方法論の付録は、研究所の公式サイトに公開されている。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン