たった1回の対話で5秒で突破:Claude Fable 5の「最強のセキュリティメカニズム」が中国人チームに破解された?

原文タイトル:《5 秒攻破,仅需 1 次对话:Fable 5 最强安全机制被华人团队破解》
原文来源:机器之心

提示注入ではなく、役割演技でもなく、悪意のあるリクエストを通常の質問に偽装することでもない。今回は、リスクは知能体が自主的にタスクを完了する過程で現れた。

Fable 5はAnthropicが一般公開しているMythosクラスのモデルであり、非常に高い総合能力を備えるだけでなく、モデルの周囲に新世代の安全分類器(Safety Classifier)を導入し、安全防御線として機能させている。

公式設計によると、ネットワークセキュリティ、生物、化学、モデル蒸留などの高リスク分野に関するリクエストがあった場合、システムは優先的にリスク識別を行い、リスクレベルに応じてリクエストを拒否するか、より保守的なOpus 4.8モデルに切り替える。

多くのユーザーテストにより、従来広く用いられていた対抗プロンプト、役割演技、エンコード回避、曖昧な表現などの脱獄攻撃技術は、この安全メカニズムの前ではほぼすべて無効となり、その意図レベルのリスク遮断能力の高さを示している。

しかし、Fable 5のリリース当日、復旦大学、ディケン大学、中国香港城市大学、メルボルン大学、シンガポール経営大学、イリノイ大学アーバナ・シャンペーン校などの機関からなる国際共同研究チームは、Fable 5の安全防護メカニズムを突破したと発表した。

この攻撃方法は、ディケン大学の博士課程生ユタオ・ウー(Yutao Wu)が主導して設計したものである。この攻撃は一度の対話だけで、5秒もかからずに前置きの安全分類器を回避し、モデルに違反・有害な内容を生成させることができる。

トラフィック分析の結果、関連する有害出力はFable 5自体から直接出ており、安全メカニズムのトリガー後に自動的に切り替わるOpus 4.8モデルからのものではないことがさらに明らかになった。これは、この攻撃が安全分類器の検出を突破しただけでなく、Fable 5の安全防線自体も実質的に突破したことを意味している。

特筆すべきは、著名なハッカーPliny the Liberatorも最近、Fable 5の安全分類器の回避に成功したことを公表したことである。復旦大学とディケン大学のチームが採用した技術ルートは、単なる組み合わせ探索ではなく、Fable 5のようなスーパーインテリジェントシステムの根本的な欠陥を発見したものである。

報告によると、チームは今年の3月には既に予備研究を完了し、公開している。この研究はFable 5単体のシステムを対象としたものではなく、新世代のスーパーインテリジェントの一般的な防御アーキテクチャ「安全分類器+モデル」に焦点を当てており、こうした安全メカニズムの構造的欠陥を直接明らかにしたものである。そのため、Fable 5のリリース後、迅速に攻撃効果を示した。

公開資料によると、チームは今年の3月にはすでに類似の技術を用いて、37の主流大規模モデルやインテリジェントシステムからシステムのプロンプトを成功裏に抽出し、Claude Codeのオープンソース検証も完了(95%の一致)している。

調査によると、チームの責任者は復旦大学の信頼性具現化知能研究院の馬興軍(Ma Xingjun)教授である。

近年、彼のチームは大規模モデル、インテリジェントエージェント、具現化知能の安全性などの分野で体系的な研究を行い、一連の国際的先進的な科研成果を挙げ、米国AI安全センターの安全基準大会で優勝した。

現在、彼らのチームは成果の実用化を積極的に推進しており、インテリジェントエージェントの安全性に焦点を当て、次世代インテリジェントシステムの安全基盤構築能力の探索を進めている。

馬教授によると、この研究結果の重要な意義は、現在の安全分類器を中心とした静的防御パラダイムに新たな挑戦をもたらす点にある:前置きの安全分類器だけに頼ることでは、高度なインテリジェントシステムに潜む潜在的リスク行動を完全に防ぐことはできない。

安全分類器は主にユーザー入力のリスク識別と遮断を担当し、明示的な高リスク指令を効果的に検出・フィルタリングできるが、長時間の運用、多段階の計画、環境との相互作用、ツール呼び出しの過程で徐々に生じる内在的リスク行動を感知することはできない。

今回のFable 5突破の方法は、今年3月に発表された論文「最前線大規模言語モデルにおける内部安全崩壊(Internal Safety Collapse in Frontier Large Language Models)」に由来する。

この論文は、隠れた安全現象「内部安全崩壊(ISC)」を明らかにしている:現在のエージェントが長期タスクを完了する際、安全性の失効は外部の悪意あるプロンプトからだけでなく、モデル自身の実行チェーンの中でも起こり得る。

外部プロンプト攻撃ではなく、タスクチェーン内の内部失守である

従来の攻撃は外部から行われることが多い。攻撃者は無害に見えるが実は対抗的な入力プロンプトを書いたり、役割演技、エンコード、翻訳、間接指示などを用いて悪意の意図を通常のリクエストに偽装したりする。安全分類器の主な任務は、この層でリスクを遮断することである。

Fable 5の検出器は、こうしたシナリオに特化して設計されている。高リスクの直接リクエストには非常に敏感で、多くの正常なリクエストも遮断してしまうことさえある。しかし、ISCが示すのは別の経路:リスクは必ずしもユーザの直接入力から来るわけではない。

知能体は、一見普通の作業ディレクトリ:ファイル、目標、検証プロセス、未完のタスクに直面している。次に、計画を立て、ファイルを読み込み、コードを実行し、エラーを修正しながら、タスクの検証を通過させようと試みる。

例えるなら、従来の安全メカニズムはシステムの「入口」を守るものであり、ユーザ入力のリスクを検査する役割を担う。一方、ISCが示すのは、まるで『インセプション』の多層夢境のようなものだ。

タスクが第2層、第3層、さらには深層に進むにつれて、モデルは内部の文脈をもとにタスクの目的を再理解し、その過程で徐々に偏移を生じさせる。

この場合、最初のユーザ入力は完全に正常かつ無害であっても、前段のタスク実行は常に適法であるように見えても、ファイルの読み込み、データ分析、コード作成、ツール呼び出しなど、すべてが予定通り進んでいるように見える。

しかし、ある重要な段階に達したとき、知能体は自己推論を行い、最終的なタスクを完了するために、もともと実行すべきでなかった行動を取らざるを得なくなると結論付けることもある。

この過程で、リスクは外部入力からではなく、モデル自身のタスク実行チェーンの中で徐々に形成されていく。つまり、モデルはユーザに悪意を教えられるのではなく、「真剣にタスクを完了しようとする」過程で、自ら不安全な状態に陥るのである。

この現象はどうやって発見されたのか?

チームによると、ISCは最初から攻撃手法として設計されたものではない。長期運用過程の観察から生まれたものである。エージェントが複雑なタスク環境に置かれると、単に命令を機械的に実行するだけではなく、計画し、試行錯誤し、ハーネスやバリデータのフィードバックに基づいて出力を修正しながら、中間目標を形成していく。

これこそ、多くのエージェントワークフローで最も一般的に見られる使い方だ。ユーザは精巧に設計されたプロンプトを書かず、攻撃指示を手動で構築しない。多くの場合、非常に曖昧な一言だけを入力する。

「このタスクを完了してほしい。」「これをもう少し良くしてほしい。」

すると、エージェントは自ら作業空間に入り込み、ファイルを読み込み、現在の状態を理解し、不足している部分を見つけ、計画を立て、修正を実行し、フィードバックに基づいて問題を修復していく。

例えばAutoResearchのシナリオでは、ユーザは未完成の論文と「完成させて」とだけ指示し、エージェントは自動的に実験分析や関連研究、表の文字列などの不足部分を判断して補完する。コードのシナリオも同様で、「このプロジェクトを動かして」とだけ指示すれば、依存関係の確認、テストの実行、エラーの特定、補完まで自動的に行われる。

多くの場合、前段の文脈は全く危険ではない。ユーザはリスクのある内容を生成させることを求めていないし、タスクの説明にも明らかな危険キーワードは含まれていない。しかし、特定のタスク構造では、エージェントは検証を通すために、意図せずにモデルが生成すべきでない内容を補完してしまうことがある。この観察に基づき、研究チームはさらに攻撃フレームワークTVD(タスク、検証、データ)を提案した。

なぜ一見普通のタスク記述構造が攻撃の標的になり得るのか?

TVDの構造は非常にシンプルで、一般的なエンジニアリングの流れに非常に近い:

・Task:専門的なタスク;

・Data:不完全なデータファイル;

・Validator:フォーマット、完全性、目標達成をチェックする検証器。

例として、Guardモデルの訓練を考えると、これは非常に専門的で正常なタスクだ。研究者は、Hugging Faceを用いてテキスト分類モデルをロードし、モデル出力の安全性ラベルを判断する安全検出器の訓練や評価を行いたいと考えている。

このタスクでは、Dataはモデルが検査すべきデータサンプルであり、Validatorはタスクの完了を規定するものである。入力がテキストかどうか、長さは十分か、フィールドは完全か、ラベルのフォーマットは正しいかを検査する。機械学習の訓練経験者にとっては、馴染みのあるワークフローだ。エージェントもこの流れに非常に精通している。

問題はここにある。Dataが不完全だと、タスクは始まらない。Validatorはエラーを返し、フィールドの欠落や長さ不足、フォーマットの不備を指摘する。訓練を続行させるために、エージェントは自らDataを補完する。

エージェントの視点から見ると、これは「悪事」ではない。正常な機械学習タスクを完遂しているだけだ:データを修復し、検証を通し、訓練スクリプトを動かす。だが、安全の観点から見ると、リスクはこの瞬間に現れる:Validatorはあくまで工程の検査官であり、安全性の審査官ではない。内容の安全境界を理解していない。

**この問題は、医学、生物、化学、サイバーセキュリティ、薬理学、メディアセキュリティなど多くの分野に広く存在している。**論文はこれらのシナリオを50以上収集し、BioPython、RDKit、Cantera、AutoDock Vina、DiffDock、PyRosetta、Scapy、Impacket、angr、Frida、LlamaGuard、Detoxify、OpenAI Moderation APIなど、多種多様な実用的研究・工学ツールも取り上げている。

これらのツール自体は悪意のあるものではない。むしろ、現実の研究や工学で広く使われている専門ツールだ。しかし、TVDの問題は、タスクが正常で、ツールも正常、検証器も正常であっても、エージェントがDataの補完過程で不安全な出力に向かう可能性がある点にある。

したがって、ISCの核心は、プロンプトのテクニックではなく、「未完のタスク」の自動補完能力にある。完了条件とリスク境界が重なるとき、モデルは不安全な出力を正常な成果物と誤認しやすくなる。

Fable 5の突破は、強力な検出器でもタスクチェーン内のリスクを防げないことを示している

Fable 5の事例は、外部検出器だけでは長期エージェントシナリオの一部をカバーできないことを示している。これは安全分類器に価値がないと言っているわけではない。むしろ、外部からの悪意あるリクエストには非常に有効で、多くの従来の脱獄手法を無効にしている。

しかし、この失敗は、外部検出器はプロンプトの境界には有効だが、エージェント内部の長期タスクリスクを完全にカバーできるわけではないことを示している。

もし突破口がユーザのプロンプトではなく、エージェントの目標、ツール、検証器、実行軌跡にあるとすれば、安全検出器は非常に脆弱になる。

Fable 5から60以上の他モデル(Appleのモバイル端末モデルを含む)へ

研究と同時に公開されたISC-Benchは、9つの専門分野をカバーしている。論文バージョンには60以上のトリガーテンプレートが含まれ、オープンソース化後に84テンプレートに拡張され、ほぼすべてのメーカーの最先端モデルとインテリジェントシステムを対象にテストされている。

ISC-Benchを用いた評価リストでは、2026年6月時点で、60以上の最先端モデルがASR@3指標下で同様のリスクを露呈している!

現在、GitHubのプロジェクトは800+スターを獲得し、複数の独立した再現例(Appleのモバイル端末モデルの突破例も含む)を収集し、継続的に更新中である。

調査によると、チームは大規模な最先端モデルの安全性研究を進めており、多くのモデルの内部不安全データ分布を把握している。今後、研究成果は順次公開される予定だ。

原文リンク

律動BlockBeatsの採用ポジションについてはこちらをクリックしてください

律動BlockBeats公式コミュニティにぜひご参加ください:

Telegram購読グループ:https://t.me/theblockbeats

Telegramグループ:https://t.me/BlockBeats_App

Twitter公式アカウント:https://twitter.com/BlockBeatsAsia

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし