Ramp Labs propõe uma nova solução de partilha de memória entre múltiplos agentes, com uma redução de até 65% no consumo de tokens

robot
Geração de resumo em curso

ME News Notícias, 11 de abril (UTC+8), a empresa de infraestrutura de IA Ramp Labs publicou os resultados de pesquisa “Latent Briefing”, que realiza uma compressão direta do cache KV de grandes modelos para compartilhar memória de forma eficiente entre sistemas multiagentes, reduzindo significativamente o consumo de tokens sem perder precisão.
Na arquitetura de múltiplos agentes predominante, o coordenador (Orchestrator) divide tarefas e chama repetidamente o modelo trabalhador (Worker); à medida que a cadeia de raciocínio se estende, o uso de tokens aumenta exponencialmente.
A ideia central do Latent Briefing é: usar mecanismos de atenção para identificar as partes realmente críticas do contexto, descartando informações redundantes na camada de representação, ao invés de depender de resumos lentos de LLM ou de buscas RAG com baixa estabilidade.
Nos testes de benchmark LongBench v2, o método apresentou resultados notáveis: o consumo de tokens pelo modelo Worker foi reduzido em 65%, a economia mediana de tokens em documentos de comprimento médio (32k a 100k) atingiu 49%, a precisão geral aumentou cerca de 3 pontos percentuais em relação à linha de base, e o tempo adicional de compressão foi de apenas cerca de 1,7 segundos, acelerando aproximadamente 20 vezes em relação ao algoritmo original.
Os experimentos usaram Claude Sonnet 4 como coordenador e Qwen3-14B como modelo trabalhador, cobrindo cenários de documentos acadêmicos, textos jurídicos, romances e relatórios governamentais.
A pesquisa também descobriu que o limite de compressão ideal varia de acordo com a dificuldade da tarefa e o comprimento do documento — tarefas mais difíceis se beneficiam de compressão agressiva para filtrar ruído de raciocínio especulativo, enquanto documentos longos preferem compressão leve para preservar informações dispersas essenciais. (Fonte: BlockBeats)

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar