Ramp Labs propõe uma nova solução de compartilhamento de memória entre múltiplos agentes, com redução de até 65% no consumo de tokens

robot
Geração do resumo em andamento

ME News Notícias, 11 de abril (UTC+8), a empresa de infraestrutura de IA Ramp Labs publicou os resultados de pesquisa “Latent Briefing”, que realiza uma compressão direta do cache KV de grandes modelos para compartilhar memória de forma eficiente entre sistemas multiagentes, reduzindo significativamente o consumo de tokens sem perder precisão.
Na arquitetura de múltiplos agentes predominante, o coordenador (Orchestrator) divide tarefas e chama repetidamente o modelo trabalhador (Worker); à medida que a cadeia de raciocínio se estende, o uso de tokens aumenta exponencialmente.
A ideia central do Latent Briefing é: usar mecanismos de atenção para identificar as partes realmente críticas do contexto, descartando informações redundantes na camada de representação, ao invés de depender de resumos lentos de LLM ou de buscas RAG com baixa estabilidade.
Nos testes de benchmark LongBench v2, o método apresentou resultados notáveis: o consumo de tokens pelo modelo Worker foi reduzido em 65%, a economia mediana de tokens para documentos de comprimento médio (32k a 100k) foi de 49%, a precisão geral aumentou cerca de 3 pontos percentuais em relação à linha de base, e o tempo adicional de compressão foi de apenas cerca de 1,7 segundos, acelerando aproximadamente 20 vezes em relação ao algoritmo original.
Os experimentos usaram Claude Sonnet 4 como coordenador e Qwen3-14B como modelo trabalhador, cobrindo cenários de documentos acadêmicos, textos jurídicos, romances e relatórios governamentais.
A pesquisa também descobriu que o limite de compressão ideal varia de acordo com a dificuldade da tarefa e o comprimento do documento — tarefas mais difíceis se beneficiam de compressão agressiva para filtrar ruído de raciocínio especulativo, enquanto documentos longos preferem compressão leve para preservar informações dispersas essenciais. (Fonte: BlockBeats)

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Em alta na Gate Fun

    Ver projetos
  • Cap. de M.:$2.27KHolders:1
    0.00%
  • Cap. de M.:$2.27KHolders:0
    0.00%
  • Cap. de M.:$2.27KHolders:1
    0.00%
  • Cap. de M.:$2.27KHolders:1
    0.00%
  • Cap. de M.:$2.27KHolders:0
    0.00%
  • Marcar