AgentFlow automáticamente combina múltiples sistemas de agentes para descubrir vulnerabilidades zero-day en la evasión del sandbox de Chrome

robot
Generación de resúmenes en curso

Según la monitorización de Beating, el equipo de Feng Yu de UCSB en colaboración con fuzz.land y otras instituciones propuso AgentFlow, un programa que genera automáticamente múltiples harness de agentes (que orquesta la división de roles, transmisión de información, asignación de herramientas y lógica de reintentos) para la detección de vulnerabilidades. El artículo señala que, manteniendo el modelo invariable, solo modificando el harness se puede multiplicar por varias veces la tasa de éxito, pero las soluciones existentes suelen ser manuales o solo exploran parcialmente el espacio de diseño.

AgentFlow utiliza un DSL de gráficos con tipos para unificar los cinco dimensiones del harness (roles, topología, patrones de mensajes, vinculación de herramientas y protocolos de coordinación) en un programa gráfico editable, donde en cada paso se pueden añadir o modificar agentes, topologías, prompts y conjuntos de herramientas simultáneamente. El ciclo externo localiza las fallas a partir de señales en tiempo de ejecución como la cobertura del programa objetivo y los informes del sanitizador, reemplazando la retroalimentación binaria de éxito/fracaso. En TerminalBench-2, combinado con Claude Opus 4.6, alcanza un 84.3% (75/89), la puntuación más alta en su categoría en esa clasificación.

En el repositorio de Chrome (35 millones de líneas en C/C++), el sistema generó un harness que incluye 18 roles y aproximadamente 210 agentes, con 7 analizadores de subsistemas, 192 exploradores en paralelo y una línea de clasificación de fallos en cuatro etapas, donde agentes especializados como Crash Filter y Root Cause Analyzer realizan deduplicación mediante firmas únicas de fallos ASAN. Ejecutando el modelo de código abierto Kimi K2.5 en 192 tarjetas H100 durante 7 días, se descubrieron 10 vulnerabilidades zero-day, todas confirmadas por Chrome VRP. 6 de ellas ya tienen CVE asignado, relacionadas con WebCodecs, Proxy, Network, Codecs y Rendering, incluyendo UAF, desbordamiento de enteros y desbordamiento de búfer en montón, siendo CVE-2026-5280 y CVE-2026-6297 de nivel crítico por escape del sandbox.

El cofundador de fuzz.land, Shou Chaofan, afirmó que algunas vulnerabilidades fueron inicialmente descubiertas con MiniMax M2.5, y que tanto MiniMax M2.5 como Opus 4.6 pueden detectar la mayoría. AgentFlow ya está de código abierto.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado