Microsoft MDASH encabeza la clasificación de CyberGym, con una tasa de reproducción de vulnerabilidades del 88.4%

robot
Generación de resúmenes en curso

AIMPACT mensaje, 14 de mayo (UTC+8), actualización de la clasificación del marco de evaluación de ciberseguridad de CyberGym, Microsoft MDASH (sistema de múltiples modelos) ocupa el primer lugar con una tasa de éxito del 88.4% en la reproducción de vulnerabilidades, superando a Anthropic Agent (83.1%) y OpenAI Agent (GPT-5.5, 81.8%).
Este marco incluye 1507 casos de prueba de referencia, cubriendo vulnerabilidades históricas de 188 grandes proyectos de software.
MDASH no solo reproduce vulnerabilidades conocidas, sino que también descubrió 35 vulnerabilidades de día cero y 17 parches incompletos en la historia.
CyberGym se construye sobre vulnerabilidades reales descubiertas por OSS-Fuzz, y el entorno de evaluación incluye el repositorio de código antes del parche, donde el agente debe razonar sobre todo el código (miles de archivos, millones de líneas de código) para generar una prueba de concepto.
El equipo de Seguridad de Código Autónomo de Microsoft, liderado por Taesoo Kim, fue reconocido.
(Fuente: InFoQ)

4-1,28%
ANTHROPIC-2,18%
OPENAI-0,57%
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado