Ramp Labs propose une nouvelle solution de partage de mémoire multi-agent, réduisant la consommation de tokens jusqu'à 65 %

robot
Création du résumé en cours

ME News Actualités, le 11 avril (UTC+8), la société d’infrastructure AI Ramp Labs a publié ses résultats de recherche « Latent Briefing », qui permet un partage efficace de la mémoire entre systèmes multi-agents en compressant directement le cache KV des grands modèles, réduisant considérablement la consommation de tokens sans perte de précision. Dans l’architecture multi-agents dominante, l’orchestrateur décompose les tâches et appelle à plusieurs reprises le modèle travailleur, et à mesure que la chaîne de raisonnement s’allonge, la consommation de tokens explose de façon exponentielle. L’idée centrale de Latent Briefing est : utiliser le mécanisme d’attention pour identifier les parties réellement cruciales du contexte, en abandonnant directement les informations redondantes au niveau de la représentation, plutôt que de dépendre de résumés LLM lents ou de la recherche RAG peu stable. Sur le benchmark LongBench v2, cette méthode a montré d’excellents résultats : la consommation de tokens par le modèle travailleur a été réduite de 65 %, la médiane des tokens économisés pour des documents de longueur moyenne (32k à 100k) atteint 49 %, la précision globale a augmenté d’environ 3 points de pourcentage par rapport à la ligne de base, et le temps supplémentaire pour chaque compression n’a été que d’environ 1,7 seconde, soit environ 20 fois plus rapide que l’algorithme original. Les expériences ont utilisé Claude Sonnet 4 comme orchestrateur et Qwen3-14B comme modèle travailleur, couvrant divers scénarios de documents tels que des articles académiques, des documents juridiques, des romans et des rapports gouvernementaux. La recherche a également révélé que le seuil de compression optimal varie en fonction de la difficulté de la tâche et de la longueur du document — les tâches difficiles conviennent à une compression agressive pour filtrer le bruit de raisonnement spéculatif, tandis que les documents longs sont mieux adaptés à une compression légère pour préserver les informations clés dispersées. (Source : BlockBeats)

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler