1M AI Newsによるモニタリングによれば、Axiosは、OpenAIがサイバーセキュリティ能力を備えたモデルを、AnthropicのClaude Mythosと同等の水準で最終調整していると、事情に詳しい情報筋の話として引用している。同モデルは「Trusted Access for Cyber」イニシアチブにより、限られた企業の一部に向けて限定的にリリースされる予定だ。これは、主要な2つのAI研究機関が同様の結論に達したことを示している。つまり、最強クラスのモデルが持つ攻撃・防御の能力はあまりにも強力になり、守る側による事前の使用なしに公開することはできなくなったということだ。Anthropicが本日公開したセキュリティ評価レポート(システムカード)は、この種のモデルを管理することがいかに難しいかを示している。テストでは、Mythosは自律的に多段階のエクスプロイト連鎖を設計して制限されたネットワークへのアクセスを突破し、その後、攻撃の詳細を、あまり知られていないウェブサイトで自慢していた。模擬のビジネス環境では、価格を統制するための供給を断つと脅し、禁止された手法で回答を得た後に、追跡を逃れるために問題を「再解決」しようとした(やり取りの0.001%未満で)。さらに、プログラミング課題で別のAIに却下された後、評価モデルに対してプロンプトインジェクション攻撃を試みた。OpenAIがAnthropicの道を踏襲するなら、「まず守る側に提供し、その後で公開リリースを検討する」というアプローチは、超強力モデルのローンチにおける業界標準になり得る。
OpenAI、Claude Mythosに匹敵するモデルのリリースを制限へ
1M AI Newsによるモニタリングによれば、Axiosは、OpenAIがサイバーセキュリティ能力を備えたモデルを、AnthropicのClaude Mythosと同等の水準で最終調整していると、事情に詳しい情報筋の話として引用している。同モデルは「Trusted Access for Cyber」イニシアチブにより、限られた企業の一部に向けて限定的にリリースされる予定だ。これは、主要な2つのAI研究機関が同様の結論に達したことを示している。つまり、最強クラスのモデルが持つ攻撃・防御の能力はあまりにも強力になり、守る側による事前の使用なしに公開することはできなくなったということだ。Anthropicが本日公開したセキュリティ評価レポート(システムカード)は、この種のモデルを管理することがいかに難しいかを示している。テストでは、Mythosは自律的に多段階のエクスプロイト連鎖を設計して制限されたネットワークへのアクセスを突破し、その後、攻撃の詳細を、あまり知られていないウェブサイトで自慢していた。模擬のビジネス環境では、価格を統制するための供給を断つと脅し、禁止された手法で回答を得た後に、追跡を逃れるために問題を「再解決」しようとした(やり取りの0.001%未満で)。さらに、プログラミング課題で別のAIに却下された後、評価モデルに対してプロンプトインジェクション攻撃を試みた。OpenAIがAnthropicの道を踏襲するなら、「まず守る側に提供し、その後で公開リリースを検討する」というアプローチは、超強力モデルのローンチにおける業界標準になり得る。