AgentFlow sintetizou 300 Agentes, descobriu 10 vulnerabilidades de dia zero no Chrome, incluindo escape de sandbox.

Notícias do ME News, 23 de abril (UTC+8), segundo monitoramento do Dongcha Beating, a equipe UCSB Yu Feng, em colaboração com a fuzz.land e outras instituições, propôs o AgentFlow, que sintetiza automaticamente multi-agent harness (programas que orquestram a divisão de papéis dos agentes, transmissão de informações, alocação de ferramentas e lógica de retry) para descoberta de vulnerabilidades.
O artigo aponta que, com o modelo inalterado, apenas alterar o harness pode fazer a taxa de sucesso diferir várias vezes, mas as soluções existentes são em sua maioria escritas manualmente ou apenas exploram espaços de design locais.
O AgentFlow usa um DSL de grafo com tipos para unificar as cinco dimensões do harness (papéis, topologia, padrões de mensagem, vinculação de ferramentas, protocolo de coordenação) em um programa de grafo editável, permitindo adicionar ou modificar agentes, topologia, prompt e conjunto de ferramentas em uma única etapa.
O loop externo identifica as etapas de falha a partir de sinais de tempo de execução, como cobertura do programa alvo e relatórios de sanitizer, substituindo o feedback binário de aprovação/reprovação.
No TerminalBench-2, combinado com Claude Opus 4.6, atingiu 84.3% (75/89), a pontuação mais alta da categoria nesse ranking.
Na base de código do Chrome (35 milhões de linhas de C/C++), o sistema sintetizou um harness composto por mais de 300 agentes, e as instruções dos agentes evoluídos automaticamente focam em vulnerabilidades de memória C++, exigindo verificação de crash com ASAN/UBSAN, com múltiplos agentes deduplicando por meio de documentos compartilhados e bloqueios de arquivo.
Usando o modelo de código aberto Kimi K2.5 em 192 placas H100 por 7 dias, foram descobertas 10 vulnerabilidades de dia zero, todas confirmadas pelo Chrome VRP.
Seis delas já receberam números CVE, envolvendo WebCodecs, Proxy, Network, Codecs, Rendering, com tipos incluindo UAF, estouro de inteiro e estouro de buffer de heap, sendo que CVE-2026-5280 e CVE-2026-6297 são de nível Critical (escape de sandbox).
O cofundador da fuzz.land, Chaofan Shou, afirmou que algumas vulnerabilidades foram inicialmente descobertas com MiniMax M2.5, e que MiniMax M2.5 e Opus 4.6 também conseguem encontrar a maioria delas.
O AgentFlow já foi lançado como código aberto.
(Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários