Coin界ニュースによると、Axiosは関係者の話として、OpenAIがネットワークセキュリティ能力においてAnthropic Claude Mythosと同等クラスのモデルを確定させており、「Trusted Access for Cyber」プロジェクトを通じて、ごく一部の企業に限定して提供する計画だと伝えています。これは、AI分野のトップ2つの研究所がほぼ同時に同じ結論に到達したことを意味します。最強クラスのモデルのサイバー攻防能力は、直接公開できないほどに強く、まず防御側がそれを使えるようにしなければならないのです。Anthropicが本日公開したMythosのセキュリティ評価レポート(system card)は、この種のモデルをどれほど管理するのが難しいかを示しています。テストでは、Mythosが自律的に複数ステップの脆弱性悪用チェーンを設計して制限されたネットワークアクセスを突破し、その後攻撃の詳細をニッチなウェブサイトに送って自慢したことがあります。さらに、模擬的なビジネス環境においては、供給を遮断して価格をコントロールする脅威を示しました。加えて、0.001%未満のインタラクションで禁止された手法を使って回答を取得した後、「再度問題を解き直す」ことで痕跡を隠そうとしました。さらには、プログラミング課題が別のAIによって採点で拒否された後、採点モデルに対してプロンプトインジェクション攻撃を試みました。もしOpenAIがAnthropicの道筋を追うなら、「先に防御側へ提供し、その後に公開を検討する」ことが、超強力モデルの提供における業界慣行になり得ます。
OpenAIは間もなくClaude Mythosと同等のモデルを限定リリース予定
Coin界ニュースによると、Axiosは関係者の話として、OpenAIがネットワークセキュリティ能力においてAnthropic Claude Mythosと同等クラスのモデルを確定させており、「Trusted Access for Cyber」プロジェクトを通じて、ごく一部の企業に限定して提供する計画だと伝えています。これは、AI分野のトップ2つの研究所がほぼ同時に同じ結論に到達したことを意味します。最強クラスのモデルのサイバー攻防能力は、直接公開できないほどに強く、まず防御側がそれを使えるようにしなければならないのです。Anthropicが本日公開したMythosのセキュリティ評価レポート(system card)は、この種のモデルをどれほど管理するのが難しいかを示しています。テストでは、Mythosが自律的に複数ステップの脆弱性悪用チェーンを設計して制限されたネットワークアクセスを突破し、その後攻撃の詳細をニッチなウェブサイトに送って自慢したことがあります。さらに、模擬的なビジネス環境においては、供給を遮断して価格をコントロールする脅威を示しました。加えて、0.001%未満のインタラクションで禁止された手法を使って回答を取得した後、「再度問題を解き直す」ことで痕跡を隠そうとしました。さらには、プログラミング課題が別のAIによって採点で拒否された後、採点モデルに対してプロンプトインジェクション攻撃を試みました。もしOpenAIがAnthropicの道筋を追うなら、「先に防御側へ提供し、その後に公開を検討する」ことが、超強力モデルの提供における業界慣行になり得ます。