ME News ニュース、4月14日(UTC+8)、1M AI News の監視によると、英国AI安全研究所(AISI)はClaude Mythos Previewのサイバーセキュリティ能力評価を発表しました。専門家レベルのCTFミッション(2025年4月までにどのモデルも完了できない難易度)で、Mythos Previewの成功率は73%に達しました。AISIはまた、「The Last Ones」(TLO)という32段階の企業ネットワーク攻撃模擬シナリオを構築し、初期偵察からネットワーク全体の完全掌握までの全工程をカバーし、人間が完了するには約20時間かかります。Mythos Previewは初の全工程通過モデルで、10回のテスト中3回完全に完了し、すべての試行の平均完了ステップは22ステップです。Claude Opus 4.6は2位で、平均完了ステップは16です。AISIは、これらの結果は明確な誘導とネットワークアクセス権の提供された制御条件下で得られたと説明しています。テスト環境と実際の企業ネットワークには重要な差異があり、積極的な防御側や防御ツールはなく、安全警報の発動も罰則を受けません。そのため、Mythos Previewが堅牢な防御システムを突破できるかどうかは確認できません。2年前、最良のAIモデルはほとんど初級のネットワークタスクを完了できませんでした。AISIは、この進歩の速度はセキュリティ評価方法のアップグレードを必要とし、今後は積極的な防御とリアルタイム対応の環境で引き続きテストを行うと述べています。(出典:BlockBeats)
英国AI安全研究所:Claude Mythos Previewが最初の自律的に32段階の企業ネットワーク攻撃シミュレーションを突破するAI
ME News ニュース、4月14日(UTC+8)、1M AI News の監視によると、英国AI安全研究所(AISI)はClaude Mythos Previewのサイバーセキュリティ能力評価を発表しました。専門家レベルのCTFミッション(2025年4月までにどのモデルも完了できない難易度)で、Mythos Previewの成功率は73%に達しました。AISIはまた、「The Last Ones」(TLO)という32段階の企業ネットワーク攻撃模擬シナリオを構築し、初期偵察からネットワーク全体の完全掌握までの全工程をカバーし、人間が完了するには約20時間かかります。Mythos Previewは初の全工程通過モデルで、10回のテスト中3回完全に完了し、すべての試行の平均完了ステップは22ステップです。Claude Opus 4.6は2位で、平均完了ステップは16です。AISIは、これらの結果は明確な誘導とネットワークアクセス権の提供された制御条件下で得られたと説明しています。テスト環境と実際の企業ネットワークには重要な差異があり、積極的な防御側や防御ツールはなく、安全警報の発動も罰則を受けません。そのため、Mythos Previewが堅牢な防御システムを突破できるかどうかは確認できません。2年前、最良のAIモデルはほとんど初級のネットワークタスクを完了できませんでした。AISIは、この進歩の速度はセキュリティ評価方法のアップグレードを必要とし、今後は積極的な防御とリアルタイム対応の環境で引き続きテストを行うと述べています。(出典:BlockBeats)