Ramp Labs提出多智能體記憶共享新方案，Token消耗最高降低65%

ME News · 2026-04-11T22:33:33+00:00

AI基礎設施公司Ramp Labs發布了「Latent Briefing」研究，借助注意力機制實現多智能體系統中的高效記憶共享，顯著降低Token消耗並提高準確率。該方法在LongBench v2基準測試中表現突出，Worker模型Token消耗降低65%，並加速壓縮過程，適應不同任務和文檔長度的壓縮需求。

ME News

2026-04-11 22:33:33

摘要生成中

ME News 消息，4 月 11 日（UTC+8），AI 基礎設施公司 Ramp Labs 發布研究成果「Latent Briefing」，通過直接壓縮大模型 KV 快取實現多智能體系統間的高效記憶共享，在不損失準確率的前提下大幅降低 Token 消耗。在主流多智能體架構中，編排者（Orchestrator）將任務拆解並反覆調用工作者（Worker）模型，隨著推理鏈路不斷延伸，Token 用量呈指數級膨脹。Latent Briefing 的核心思路是：借助注意力機制識別上下文中真正關鍵的部分，在表示層直接丟棄冗餘資訊，而非依賴速度慢的 LLM 摘要或穩定性差的 RAG 檢索。在 LongBench v2 基準測試中，該方法表現亮眼：Worker 模型 Token 消耗降低 65%，中等長度文件（32k 至 100k）的 Token 節省中位數達 49%，整體準確率較基線提升約 3 個百分點，而每次壓縮的額外耗時僅約 1.7 秒，較原始算法提速約 20 倍。實驗以 Claude Sonnet 4 作為編排者、Qwen3-14B 作為工作者模型，涵蓋學術論文、法律文書、小說及政府報告等多類文件場景。研究還發現，最優壓縮閾值因任務難度和文件長度而異——難題適合激進壓縮以過濾投機性推理噪聲，長文件則更適合輕度壓縮以保留分散的關鍵資訊。（來源：BlockBeats）

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

2人按讚了這條動態

打賞
2
留言
轉發
分享

留言

請輸入留言內容

暫無留言

熱門話題
查看更多
#
Gate上線Pre-IPOs
97.7萬熱度
#
Gate現貨衍生品雙雙衝進全球前三
965.99萬熱度
#
原油小幅上漲
123.8萬熱度
#
加密市場回升
6.6萬熱度
#
Gate廣場四月發帖挑戰
149.11萬熱度

熱門 Gate Fun
查看更多

1
MMS
MEMES
市值:$2268.96持有人數:1
0.00%
2
CEA
Creator Empowerment Allia
市值:$2272.41持有人數:1
0.00%
3
leopard
Laughing leopard
市值:$2268.96持有人數:1
0.00%
4
Ottmn
OttomanEmpire
市值:$2547.37持有人數:2
0.00%
5
XGYF
云锋
市值:$2329.49持有人數:1
0.81%

Ramp Labs提出多智能體記憶共享新方案，Token消耗最高降低65%

熱門話題

Gate上線Pre-IPOs

Gate現貨衍生品雙雙衝進全球前三

原油小幅上漲

加密市場回升

Gate廣場四月發帖挑戰

熱門 Gate Fun

MMS

MEMES

CEA

Creator Empowerment Allia

leopard

Laughing leopard

Ottmn

OttomanEmpire

XGYF

云锋

置頂