✍️ Gate 廣場「創作者認證激勵計劃」進行中!
我們歡迎優質創作者積極創作,申請認證
贏取豪華代幣獎池、Gate 精美周邊、流量曝光等超過 $10,000+ 豐厚獎勵!
立即報名 👉 https://www.gate.com/questionnaire/7159
📕 認證申請步驟:
1️⃣ App 首頁底部進入【廣場】 → 點擊右上角頭像進入個人主頁
2️⃣ 點擊頭像右下角【申請認證】進入認證頁面,等待審核
讓優質內容被更多人看到,一起共建創作者社區!
活動詳情:https://www.gate.com/announcements/article/47889
Ramp Labs提出多智能體記憶共享新方案,Token消耗最高降低65%
ME News 消息,4 月 11 日(UTC+8),AI 基礎設施公司 Ramp Labs 發布研究成果「Latent Briefing」,通過直接壓縮大模型 KV 快取實現多智能體系統間的高效記憶共享,在不損失準確率的前提下大幅降低 Token 消耗。在主流多智能體架構中,編排者(Orchestrator)將任務拆解並反覆調用工作者(Worker)模型,隨著推理鏈路不斷延伸,Token 用量呈指數級膨脹。Latent Briefing 的核心思路是:借助注意力機制識別上下文中真正關鍵的部分,在表示層直接丟棄冗餘資訊,而非依賴速度慢的 LLM 摘要或穩定性差的 RAG 檢索。在 LongBench v2 基準測試中,該方法表現亮眼:Worker 模型 Token 消耗降低 65%,中等長度文件(32k 至 100k)的 Token 節省中位數達 49%,整體準確率較基線提升約 3 個百分點,而每次壓縮的額外耗時僅約 1.7 秒,較原始算法提速約 20 倍。實驗以 Claude Sonnet 4 作為編排者、Qwen3-14B 作為工作者模型,涵蓋學術論文、法律文書、小說及政府報告等多類文件場景。研究還發現,最優壓縮閾值因任務難度和文件長度而異——難題適合激進壓縮以過濾投機性推理噪聲,長文件則更適合輕度壓縮以保留分散的關鍵資訊。(來源:BlockBeats)