Ramp Labs propõe uma nova solução de compartilhamento de memória entre múltiplos agentes, com redução de até 65% no consumo de tokens

MeNews · 2026-04-12T00:17:18+00:00

A empresa de infraestrutura de IA Ramp Labs lançou a pesquisa 「Latent Briefing」, que utiliza mecanismos de atenção para alcançar uma partilha de memória eficiente em sistemas multi-agente, reduzindo significativamente o consumo de tokens e aumentando a precisão. Este método destacou-se no teste de referência LongBench v2, com o consumo de tokens do modelo Worker reduzido em 65%, além de acelerar o processo de compressão, adaptando-se às necessidades de compressão de diferentes tarefas e comprimentos de documentos.

MeNews

2026-04-12 00:17:18

Geração do resumo em andamento

ME News Notícias, 11 de abril (UTC+8), a empresa de infraestrutura de IA Ramp Labs publicou os resultados de pesquisa “Latent Briefing”, que realiza uma compressão direta do cache KV de grandes modelos para compartilhar memória de forma eficiente entre sistemas multiagentes, reduzindo significativamente o consumo de tokens sem perder precisão.
Na arquitetura de múltiplos agentes predominante, o coordenador (Orchestrator) divide tarefas e chama repetidamente o modelo trabalhador (Worker); à medida que a cadeia de raciocínio se estende, o uso de tokens aumenta exponencialmente.
A ideia central do Latent Briefing é: usar mecanismos de atenção para identificar as partes realmente críticas do contexto, descartando informações redundantes na camada de representação, ao invés de depender de resumos lentos de LLM ou de buscas RAG com baixa estabilidade.
Nos testes de benchmark LongBench v2, o método apresentou resultados notáveis: o consumo de tokens pelo modelo Worker foi reduzido em 65%, a economia mediana de tokens para documentos de comprimento médio (32k a 100k) foi de 49%, a precisão geral aumentou cerca de 3 pontos percentuais em relação à linha de base, e o tempo adicional de compressão foi de apenas cerca de 1,7 segundos, acelerando aproximadamente 20 vezes em relação ao algoritmo original.
Os experimentos usaram Claude Sonnet 4 como coordenador e Qwen3-14B como modelo trabalhador, cobrindo cenários de documentos acadêmicos, textos jurídicos, romances e relatórios governamentais.
A pesquisa também descobriu que o limite de compressão ideal varia de acordo com a dificuldade da tarefa e o comprimento do documento — tarefas mais difíceis se beneficiam de compressão agressiva para filtrar ruído de raciocínio especulativo, enquanto documentos longos preferem compressão leve para preservar informações dispersas essenciais. (Fonte: BlockBeats)

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

2 Curtidas