彼らがターゲットにしたケースは、Anthropicが公開資料で強調したものと同じだった:サーバーファイル共有プロトコル、セキュリティ重視OSのネットワークスタック、ほぼすべてのメディアプラットフォームに埋め込まれた動画処理ソフト、そしてウェブ上のデジタルIDを検証するために使われる2つの暗号ライブラリ。
GPT-5.4とClaude Opus 4.6は、各3回の実行すべてで2つのバグケースを再現した。Claude Opus 4.6はOpenBSDのバグを独立して3回再発見したのに対し、GPT-5.4はそれをゼロだった。一部のバグは、動画再生に使われるFFmpegライブラリや、wolfSSLを用いたデジタル署名の処理に関わるもので、部分的にしか再現できなかった—つまり、モデルは正しいコードの表面は見つけたが、正確な根本原因までは特定できなかった。
研究者によると、Anthropicの警告的な神話の発見は市販のAIで再現された
要約
今月初めにAnthropicがClaude Mythosを発表した際、同モデルは信頼された大手テック企業の連合に閉じられ、一般公開には危険すぎると位置付けられた。財務長官スコット・ベッセントと連邦準備制度理事会議長ジェローム・パウエルは、ウォール街のCEOたちと緊急会議を開催した。「脆弱性の黙示録(vulnpocalypse)」という言葉もセキュリティ界隈で再浮上した。 そして今、研究者のチームがその物語をさらに複雑にしている。 Vidoc Securityは、Anthropic自身が修正した公開例を用いて、GPT-5.4とClaude Opus 4.6をオープンソースのコーディングエージェント「opencode」内で再現を試みた。招待も、プライベートAPIアクセスも、Anthropicの内部スタックも不要だ。 「私たちは、Anthropicのプライベートスタックではなく、公開モデルを使ってopencode内でMythosの発見を再現しました」と、実験に関わったDawid Moczadłoは結果を公開後Xで述べた。「AnthropicのMythosリリースの読み方は、『一つの研究所が魔法のようなモデルを持っている』ではなく、『脆弱性発見の経済性が変わりつつある』ということだ。」
彼らがターゲットにしたケースは、Anthropicが公開資料で強調したものと同じだった:サーバーファイル共有プロトコル、セキュリティ重視OSのネットワークスタック、ほぼすべてのメディアプラットフォームに埋め込まれた動画処理ソフト、そしてウェブ上のデジタルIDを検証するために使われる2つの暗号ライブラリ。 GPT-5.4とClaude Opus 4.6は、各3回の実行すべてで2つのバグケースを再現した。Claude Opus 4.6はOpenBSDのバグを独立して3回再発見したのに対し、GPT-5.4はそれをゼロだった。一部のバグは、動画再生に使われるFFmpegライブラリや、wolfSSLを用いたデジタル署名の処理に関わるもので、部分的にしか再現できなかった—つまり、モデルは正しいコードの表面は見つけたが、正確な根本原因までは特定できなかった。
画像:Vidoc Security
すべてのスキャンは(あたりのファイル数以下に収まり、研究者はAnthropicと同じ脆弱性を見つけながらも、より少ないコストで済ませることができた。
「AIモデルはすでに、探索空間を狭め、実際の手がかりを浮かび上がらせ、戦闘テスト済みのコードの完全な根本原因を回復することさえ可能になっている」と、MoczadłoはXで述べた。 彼らのワークフローは一度きりのプロンプトではなかった。Anthropic自身が公開している方法を模倣したもので、コードベースを与え、探索させ、並列化して試行し、信号をフィルタリングするというものだった。Vidocチームは同じアーキテクチャをオープンツールで構築した。計画エージェントが各ファイルをチャンクに分割し、検出エージェントが各チャンクで動作、その後リポジトリ内の他のファイルを検査して結果を確認または除外した。 各検出プロンプト内の行範囲(例:「1158行目から1215行目に焦点を当てる」)は、研究者が手動で選んだものではなく、前の計画ステップの出力だった。ブログ記事ではこれを明示している:「このチャンク分割戦略が各検出エージェントの視野を形成するため、手動でよりキュレーションされたものとして見せたくないからだ。」 この研究は、パブリックモデルがMythosに匹敵すると主張しているわけではない。Anthropicのモデルは、FreeBSDのバグを見つけただけでなく、攻撃者が複数のネットワークパケットを横断してコード断片を連結し、リモートでマシンを完全に制御できる攻撃の設計図を構築した。Vidocのモデルはその欠陥を見つけたが、攻撃手段を構築しなかった。ここに真のギャップがある:穴を見つけることと、それをどう通り抜けるかを正確に知ることの違いだ。 しかし、Moczadłoの主張は、パブリックモデルが同等に強力だということではない。むしろ、ワークフローのコストの高い部分が、APIキーさえあれば誰でも利用できる状態になったという点だ。「溝はモデルアクセスから検証へと動いている:脆弱性の信号を見つけるコストは下がっている;それを信頼できるセキュリティ作業に変えるのは依然として難しい。」 Anthropic自身の安全性レポートは、モデルが深刻なサイバーリスクをもたらすかどうかを測るベンチマーク「Cybench」が、「現行の最先端モデルの能力を十分に示すものではなくなった」と認めている。Mythosはこれを完全にクリアしたためだ。同研究所は、同等の能力が他のAI研究所から6ヶ月から18ヶ月以内に広がると見積もっている。 Vidocの研究は、その発見側の側面がすでにゲートのない外部でも利用可能になっていることを示唆している。彼らの完全なプロンプト抜粋、モデル出力、方法論の付録は、研究所の公式サイトに公開されている。