Conquista 15 vulnerabilidades zero-day de alto nível: estrutura de agente inteligente de depuração de protocolo de consenso construída por equipes do 0G Lab, Nova Universidade Nacional, Peking University e Beijing University of Posts and Telecommunications

Fonte original: Máquina do Coração

O "Santo Graal" dos sistemas distribuídos — protocolos de consenso (Consensus Protocols), há muito tempo é o "Inferno de Bugs" para engenheiros de infraestrutura de alto nível. Devido à sua complexidade de estado extrema, interligação de múltiplos nós, testes tradicionais e grandes modelos de linguagem (LLMs) monolíticos quase não conseguem lidar com Deep Bugs (falhas lógicas profundas).

Recentemente, um artigo de submissão ao ICML 2026, de pesquisadores da 0G Labs, Universidade Nacional de Cingapura, Universidade de Pequim, Universidade de Pequim de Comunicações e outras equipes acadêmicas e industriais de ponta, propôs a primeira estrutura de teste automatizado que integra profundamente conhecimento de domínio com múltiplos agentes de grandes modelos — o Agora.

Essa estrutura, por meio de uma arquitetura inovadora, aborda diretamente os pontos críticos do protocolo, e nos protocolos centrais de nível industrial e acadêmico como Raft, EPaxos, HotStuff, BullShark, eliminou de uma só vez 15 Deep Bugs de nível de protocolo até então desconhecidos! Em comparação, modelos nativos como GPT-5.2, Claude 4.5, enfrentaram dificuldades e não conseguiram detectar esses bugs. Com sistemas multi-agentes (Multi-Agent) e a tendência de "auditoria de segurança baseada em agentes" (Agentic Quality Control) se tornando as áreas mais quentes de 2026, o Agora oferece não apenas um artigo, mas uma solução industrial viável.

Artigo: "Agora: Rumo à Detecção Autônoma de Bugs em Protocolos de Consenso de Nível de Produção com Agentes de LLM"

  1. Contexto: Parceria forte entre 0G e NUS, acumulando conhecimento de sistema de longo prazo e fusão de paradigma Multi-Agent entre gerações ===================================================

A evolução dos protocolos de consenso distribuído é tanto uma história de inovação genial quanto uma história de erros sangrentos de engenheiros de elite. Como disse Lamport, ganhador do Prêmio Turing, garantir a correção na implementação de protocolos distribuídos é tão difícil quanto atravessar um labirinto em constante movimento às cegas. E nesta "rodada infernal", o mercado está mudando silenciosamente: segundo a Gartner, a consulta de empresas sobre sistemas multi-agentes cresceu mais de dez vezes em pouco mais de um ano, e o mercado de plataformas multi-agentes entrou em uma fase de expansão acelerada, quase dobrando a cada ano — usar "colaboração de múltiplos agentes" para validar sistemas de nível mais profundo está se tornando uma necessidade industrial, e não mais uma ideia de ponta.

Diante dessa rodada infernal, gigantes tecnológicos com recursos abundantes lideraram a exploração. Por exemplo, a Anthropic, líder do setor, recentemente promoveu o projeto Glasswing dentro do Claude Code, tentando usar agentes para testar infraestrutura de baixo nível, mas sua arquitetura ainda depende fortemente de modelos comerciais de ponta, detalhes específicos permanecem obscuros, e a colaboração é restrita a algumas grandes instituições tecnológicas e corporações multinacionais. Ainda mais crítico, esses grandes projetos podem consumir uma quantidade assustadora de tokens durante a execução, criando uma barreira de custo alto que exclui startups e pequenas empresas com orçamento limitado.

Será que pequenas empresas e comunidades open source estão condenadas a não poderem usar ferramentas de auditoria automatizada de vulnerabilidades de ponta?

Engenheiros da 0G Labs, Liu Xiang da NUS, Song Sa da UESTC, Sun Yong e o estudante de doutorado Zhang Zhao da Escola de Inteligência da PUC, juntamente com o pesquisador Zhang Ceyao, uniram seus profundos conhecimentos em agentes para realizar uma inovação disruptiva de "pequeno para grande", cujo trabalho já foi submetido ao ICML 2026.

O "acúmulo de conhecimento de longo prazo" na academia encontrou o "ponto de dor e sensibilidade" na indústria. Como impulsionar a próxima revolução em segurança de sistemas?

A equipe da 0G acumulou vasta experiência prática na implementação de protocolos de consenso blockchain; além disso, possui uma sólida base acadêmica em sistemas distribuídos de alto desempenho, controle de concorrência de baixo nível e verificação formal de sistemas. Eles sabem que métodos tradicionais (como fuzzing) muitas vezes enfrentam limitações devido à explosão do espaço de estados. Assim, decidiram incorporar seu conhecimento de invariantes globais de sistemas distribuídos — uma lógica de invariantes — como "alma" do sistema, injetando-a na mais avançada paradigma de colaboração multi-agentes e na arquitetura de harness automatizado, lançando o framework open source e acessível Agora.

Simultaneamente, como uma infraestrutura de IA modular de ponta e uma rede de disponibilidade de dados descentralizada de alto desempenho, a equipe da 0G acumulou vasta experiência na implementação industrial de protocolos de consenso blockchain, arquiteturas BFT (Byzantine Fault Tolerance) de alta concorrência, além de exemplos reais de falhas de protocolos.

Essa fusão interdisciplinar mudou radicalmente as regras do jogo: não se trata de testes cegos e violentos, nem de modelos de grande porte sem conhecimento de domínio ("tateando às cegas"), mas de dividir tarefas entre especialistas experientes, transformando décadas de intuição lógica em estratégias de jogo e colaboração entre agentes, conferindo uma força de ataque de redução de dimensão às ferramentas tradicionais de teste.

Ao contrário da abordagem de alto custo e consumo de tokens, como a Glasswing, o Agora oferece uma alternativa extremamente amigável para pequenas e médias empresas — demonstrando que, mesmo com modelos de base "um pouco inferiores" e maior custo-benefício, uma arquitetura colaborativa de múltiplos agentes com percepção de domínio pode detectar Deep Bugs de forma eficaz!

  1. Ponto de dor: Monólitos LLM enfrentam limites, enquanto sistemas distribuídos permanecem sob a "Espada de Damocles" da lógica profunda ======================================

Na era de Big Data, blockchain e bancos de dados distribuídos, protocolos de consenso (como Paxos, Raft, PBFT) formam a base do mundo digital. Contudo, a implementação de protocolos de consenso é notoriamente difícil. Mesmo projetos industriais como etcd, refinados por inúmeros engenheiros de elite globalmente, escondem Deep Bugs (falhas lógicas profundas) que fazem suar frio.

Essas vulnerabilidades diferem de bugs comuns de implementação, como vazamentos de memória ou estouros de inteiros, pois atravessam múltiplas fases de execução e dependem de estados concorrentes complexos. Quando exploradas maliciosamente, podem corromper dados essenciais ou causar perdas financeiras catastróficas.

Embora grandes modelos de linguagem (LLMs) tenham mostrado bom desempenho na análise de código comum, eles se mostram "estúpidos" diante de protocolos distribuídos. No máximo, detectam falhas superficiais em trechos locais de código, mas, ao enfrentar vulnerabilidades de lógica de protocolo que dependem de estado global, eles ficam presos na análise de trechos isolados, incapazes de realizar inferências de sequências globais.

  1. Solução: A grande mudança com os três agentes do Agora e sua arquitetura central de harness ========================================

Para romper esse impasse, o Agora introduziu pela primeira vez a clássica hipótese de teste orientado por hipóteses (Hypothesis-Driven Testing, HDT) da academia no sistema de agentes de grande modelo. Para realizar inferências globais eficientes, o Agora abandonou o modo de "ataque individual" e desacoplou o fluxo de trabalho em três agentes altamente especializados:

Agente Orquestrador (Orchestrator): responsável pela manutenção do estado global e por explorar vulnerabilidades conhecidas;

Agente Estratégia (Strategy): responsável por injetar conhecimento de domínio de consenso distribuído, gerando cenários de ataque altamente desafiadores para CFT e BFT;

Agente TestGen (Testador): responsável por implementar testes práticos. A chave para tornar o Agora realmente aplicável e gerar testes eficazes está na sua arquitetura de automação de testes.

A arquitetura, como mostrado na figura:

No design geral do Agora, essa "pequena colaboração" de agentes não é aleatória, mas resultado de uma interação inteligente e uma fusão profunda com a arquitetura de harness de testes.

A equipe projetou um mecanismo de comunicação e memória extremamente simples e eficiente (Memória e Comunicação Concisas), que garante que cada agente se concentre em sua tarefa principal, minimizando o custo de transmissão de contexto redundante. Com essas restrições de comunicação, o Agente Orquestrador (responsável pela coordenação e controle de estado), o Agente Estratégia (que gera cenários de ataque distribuídos) e o Agente TestGen (que realiza testes de código e avaliações dinâmicas) trabalham em perfeita sinergia, alimentando a arquitetura de harness:

Parceria de duas lâminas na automação de ciclo fechado: após o Agente Estratégia deduzir cenários de ataque distribuídos abstratos, a estrutura desacoplada permite que o TestGen inicie imediatamente os testes de baixo nível. Essa arquitetura possui alta adaptabilidade ao ambiente, podendo transformar hipóteses de ataque em testes unitários reais, mesmo em linguagens diferentes como Go e Rust, além de incorporar uma técnica de ciclo de reflexão (Reflection-Loop).

Quando um teste gera erro, o sistema captura com precisão o stack trace e logs de execução, enviando-os de forma otimizada para o agente, que realiza autoajuste direcionado. Essa combinação de "interação minimalista entre múltiplos agentes + ciclo de harness dinâmico" permite que o Agora detecte Deep Bugs mais escondidos com baixo custo de tokens, além de gerar relatórios detalhados com taxa de falsos positivos extremamente baixa.

A visão geral final do funcionamento é ilustrada na figura:

  1. Resultados: 15 Deep Bugs de nível zero detectados, baseline de grandes modelos zerado ============================================

Os resultados de avaliação foram surpreendentes. A equipe testou quatro bibliotecas de protocolos de consenso renomadas (incluindo o etcd de produção e o componente central da nova blockchain Sui), comparando com modelos de ponta como GPT-5.2, Gemini 3.0 Pro Preview, Claude Sonnet 4.5 e Qwen3 Coder.

Os resultados não só aumentaram a segurança dos sistemas de consenso da 0G, mas também mostraram uma vantagem esmagadora:

15 Deep Bugs inéditos: o Agora detectou 15 vulnerabilidades de lógica profunda até então desconhecidas, envolvendo divergências de execução, violações de monotonicidade, falhas topológicas, vulnerabilidades de assinatura, entre outras áreas de alto risco.

Modelos nativos de grande porte totalmente incapazes: mesmo com modelos avançados como ReAct, todos os 15 bugs passaram despercebidos (0/15). Esses modelos consumiram muitos tokens, mas só conseguiram detectar bugs superficiais de implementação.

Baixo índice de falsos positivos e alta relação custo-benefício: entre todos os relatórios de bugs gerados pelo Agora, 73,9% eram vulnerabilidades de lógica real (falsos positivos apenas 26,1%). Além disso, detectar um bug de lógica profundo, que faria um arquiteto experiente perder cabelo, custa em média cerca de 5,32 milhões de tokens (aproximadamente 40 dólares), com alta eficiência.

Os resultados em vários LLMs são ilustrados a seguir:

  1. Futuro: alta escalabilidade, expansão para mais áreas "inexploradas" de hardware fundamental =========================

O sucesso do Agora não só reforça a segurança de sistemas distribuídos, mas também aponta o caminho para a aplicação industrial de modelos de grande porte.

Mais importante, a arquitetura do Agora demonstra alta escalabilidade e versatilidade. A equipe de pesquisa enfatiza que o Agora pode ser rapidamente reproduzido por usuários por meio de plugins ou skills, com códigos disponíveis em (github.com/0gfoundation/agora). Além disso, o paradigma de "grande modelo + múltiplos agentes colaborativos + hipótese orientada" não se limita a protocolos de consenso. Como sua lógica de fluxo de trabalho e banco de conhecimento de domínio e testes estão profundamente desacoplados, essa arquitetura pode ser aplicada rapidamente a outros domínios críticos, como:

Controle de concorrência de bancos de dados: para testar conflitos complexos de transações em níveis extremos de isolamento (como serializável);

Núcleo de sistemas operacionais / sistemas concorrentes: para descobrir deadlocks e condições de corrida ocultas;

Auditoria de contratos inteligentes Web3: para explorar profundamente as fronteiras de segurança de protocolos cross-chain e DeFi com modelos econômicos complexos. O mercado de segurança blockchain deve atingir cerca de 8,5 bilhões de dólares até 2026, com produtos comerciais que usam "sistemas de segurança multi-agentes" para auditoria de contratos inteligentes, reduzindo ciclos de auditoria de semanas para horas, em rápida expansão.

Na era da automação de segurança baseada em IA para infraestrutura fundamental, o Agora e sua arquitetura de harness podem estar liderando essa revolução.

Acreditamos que o Agora, ao descobrir mais deep bugs em diversos domínios, pode melhorar significativamente a capacidade de testes de LLMs de codificação, além de ajudar a aprimorar a compreensão de código por esses modelos.

O Agora pode aumentar a segurança de repositórios de código de protocolos de consenso, controle de concorrência, contratos inteligentes e outros componentes essenciais para transações financeiras seguras. Além disso, pode ajudar mais empresas de tecnologia a detectar bugs lógicos mais profundos, consumindo menos tokens e economizando recursos de forma mais eficiente!

Mais importante, essa abordagem coincide com duas das áreas mais quentes atualmente: primeiro, sistemas multi-agentes passando de experimentais para produção — a Gartner estima que até 2028, mais de 30% das empresas terão IA agentic integrada em seus softwares, e o mercado de plataformas multi-agentes deve saltar de centenas de milhões para bilhões de dólares em poucos anos; segundo, a "auditoria de agentes por agentes" (Agentic Quality Control) se tornando padrão na indústria em 2026.

Segundo o relatório Veracode 2025, cerca de 45% do código gerado por IA contém vulnerabilidades de segurança, e o mercado de segurança de IA agentic cresce a uma taxa composta de aproximadamente 42% ao ano. Nesse contexto, o Agora permite que empresas descubram deep bugs com menor custo de tokens, elevando a auditoria de segurança de "pagamento semanal por humanos" para uma capacidade automatizada de "entrega por hora".

À medida que esse cenário se torna mais claro, quem realmente lidera o mercado não são os maiores gigantes, mas as equipes que primeiro implementaram metodologias eficazes e podem replicá-las continuamente.

Link original

Clique para conhecer as vagas na BlockBeats

Participe do grupo oficial da BlockBeats no Telegram:

Grupo de assinatura: https://t.me/theblockbeats

Grupo de discussão: https://t.me/BlockBeats_App

Conta oficial no Twitter: https://twitter.com/BlockBeatsAsia

SUI2,18%
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado