AIMPACT メッセージ、5月14日(UTC+8)、CyberGymネットワークセキュリティ評価フレームワークのランキング更新、Microsoft MDASH(マルチモデルシステム)が88.4%の脆弱性再現成功率で1位に、Anthropic Agent(83.1%)とOpenAI Agent(GPT-5.5、81.8%)を上回る。 このフレームワークには1507のベンチマークテスト例が含まれ、188の大規模ソフトウェアプロジェクトの歴史的な脆弱性をカバーしている。 MDASHは既知の脆弱性の再現だけでなく、35のゼロデイ脆弱性と17の不完全なパッチも発見した。 CyberGymはOSS-Fuzzで発見された実際の脆弱性を基に構築されており、評価環境にはパッチ前のコードベースが含まれ、エージェントは数千のファイルと数百万行のコードから概念実証を生成するために推論を行う必要がある。 MicrosoftのAutonomous Code SecurityチームのTaesoo Kimらが感謝を受けている。 (出典:InFoQ)
マイクロソフトMDASHがCyberGymランキングのトップに、脆弱性再現率は88.4%
AIMPACT メッセージ、5月14日(UTC+8)、CyberGymネットワークセキュリティ評価フレームワークのランキング更新、Microsoft MDASH(マルチモデルシステム)が88.4%の脆弱性再現成功率で1位に、Anthropic Agent(83.1%)とOpenAI Agent(GPT-5.5、81.8%)を上回る。
このフレームワークには1507のベンチマークテスト例が含まれ、188の大規模ソフトウェアプロジェクトの歴史的な脆弱性をカバーしている。
MDASHは既知の脆弱性の再現だけでなく、35のゼロデイ脆弱性と17の不完全なパッチも発見した。
CyberGymはOSS-Fuzzで発見された実際の脆弱性を基に構築されており、評価環境にはパッチ前のコードベースが含まれ、エージェントは数千のファイルと数百万行のコードから概念実証を生成するために推論を行う必要がある。
MicrosoftのAutonomous Code SecurityチームのTaesoo Kimらが感謝を受けている。
(出典:InFoQ)