Ramp Labs propose une nouvelle solution de partage de mémoire multi-agent, réduisant la consommation de tokens jusqu'à 65 %

MeNews · 2026-04-11T12:21:18+00:00

La société d'infrastructure d'IA Ramp Labs a publié la recherche « Latent Briefing », utilisant un mécanisme d'attention pour réaliser un partage de mémoire efficace dans les systèmes multi-agents, réduisant considérablement la consommation de tokens et améliorant la précision. Cette méthode a montré des performances remarquables dans le benchmark LongBench v2, avec une réduction de 65 % de la consommation de tokens du modèle Worker, tout en accélérant le processus de compression, s'adaptant aux besoins de compression pour différentes tâches et longueurs de documents.

MeNews

2026-04-11 12:21:18

Création du résumé en cours

ME News Actualités, le 11 avril (UTC+8), la société d’infrastructure AI Ramp Labs a publié ses résultats de recherche « Latent Briefing », qui permet un partage efficace de la mémoire entre systèmes multi-agents en compressant directement le cache KV des grands modèles, réduisant considérablement la consommation de tokens sans perte de précision. Dans l’architecture multi-agents dominante, l’orchestrateur décompose les tâches et appelle à plusieurs reprises le modèle travailleur, et à mesure que la chaîne de raisonnement s’allonge, la consommation de tokens explose de façon exponentielle. L’idée centrale de Latent Briefing est : utiliser le mécanisme d’attention pour identifier les parties réellement cruciales du contexte, en abandonnant directement les informations redondantes au niveau de la représentation, plutôt que de dépendre de résumés LLM lents ou de la recherche RAG peu stable. Sur le benchmark LongBench v2, cette méthode a montré d’excellents résultats : la consommation de tokens par le modèle travailleur a été réduite de 65 %, la médiane des tokens économisés pour des documents de longueur moyenne (32k à 100k) atteint 49 %, la précision globale a augmenté d’environ 3 points de pourcentage par rapport à la ligne de base, et le temps supplémentaire pour chaque compression n’a été que d’environ 1,7 seconde, soit environ 20 fois plus rapide que l’algorithme original. Les expériences ont utilisé Claude Sonnet 4 comme orchestrateur et Qwen3-14B comme modèle travailleur, couvrant divers scénarios de documents tels que des articles académiques, des documents juridiques, des romans et des rapports gouvernementaux. La recherche a également révélé que le seuil de compression optimal varie en fonction de la difficulté de la tâche et de la longueur du document — les tâches difficiles conviennent à une compression agressive pour filtrer le bruit de raisonnement spéculatif, tandis que les documents longs sont mieux adaptés à une compression légère pour préserver les informations clés dispersées. (Source : BlockBeats)

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.