Microsoft MDASH lidera o ranking CyberGym, com uma taxa de reprodução de vulnerabilidades de 88,4%

robot
Geração de resumo em curso

AIMPACT mensagem, 14 de maio (UTC+8), atualização do ranking do quadro de avaliação de segurança cibernética do CyberGym, o sistema multi-modelo da Microsoft MDASH (Multi-Model System) ocupa o primeiro lugar com uma taxa de sucesso de 88,4% na reprodução de vulnerabilidades, superando o Agent da Anthropic (83,1%) e o Agent da OpenAI (GPT-5.5, 81,8%).
Este quadro inclui 1507 exemplos de testes de referência, abrangendo vulnerabilidades históricas de 188 grandes projetos de software.
MDASH não apenas reproduz vulnerabilidades conhecidas, mas também descobriu 35 vulnerabilidades de dia zero e 17 patches incompletos na história.
O CyberGym foi construído com base em vulnerabilidades reais descobertas pelo OSS-Fuzz, e o ambiente de avaliação inclui o repositório de código antes do patch, exigindo que o agente raciocine sobre todo o repositório de código (milhares de arquivos, milhões de linhas de código) para gerar uma prova de conceito.
Taesoo Kim e outros da equipe de Segurança de Código Autônomo da Microsoft receberam agradecimentos. (Fonte: InFoQ)

4-1,28%
ANTHROPIC-2,18%
OPENAI-0,57%
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado