支持中國開源記憶革命,AI 終於擁有人類級長期記憶!


100M Token 上下文,4B 小模型完勝 235B RAG!EverMind 開源 MSA 炸場了
你有沒有想過:人類一生記憶容量大概 2-3 億 Token,而今天的 GPT、Claude 最多勉強撐到 200K-1M,超過就崩? RAG 堆再多向量資料庫也救不了。檢索永遠是外掛,多跳推理一斷就忘;長上下文模型訓練一次就吃掉天價顯存,推理還卡得要死。
EverMind-AI 一記重拳,直接把天花板砸穿了。他們開源了 MSA(Memory Sparse Attention),一個真正原生、內置、可端到端訓練的長期記憶架構,把 LLM 的記憶容量直接拉到 100,000,000 Token,精度衰減居然不到 9%!
這不是又一個偽長上下文 trick,這是把海馬體直接焊進 Transformer 的革命性設計。
//
MSA 到底牛在哪兒?三招秒殺所有前輩
1. 稀疏注意力 + Document-wise RoPE
傳統 RoPE 一到超長就位置漂移,MSA 給每個文檔獨立重置位置計數,訓練時 64K 就能無縫外推到 100M。複雜度從 O(n²) 變成近似 O(n),訓練和推理都線性可擴展。
2. KV 緩存分層壓縮 + Memory Parallel
路由鍵(超壓縮版)常駐 GPU,完整 KV 丟在 CPU 內存裡。推理時只 Top-k 拉取需要的文檔,2 張 A800 就能跑 100M Token!官方實測:吞吐量直接起飛。
3. Memory Interleave 記憶交織機制
不再是一次性檢索,而是讓模型自己迭代思考:生成→檢索→再生成→再檢索。動態決定要多少文檔,多跳推理(HotpotQA、2Wiki 等)直接起死回生, ablation 實驗顯示去掉它精度暴跌 19%+。
一句話總結:MSA 把記憶和思考徹底融合成了一個可微分閉環,不再是“先查資料再回答”,而是一邊想一邊回憶。這才是 AGI 該有的記憶方式。數據不會騙人:4B 模型打爆一切
官方用 Qwen3-4B-Instruct 做 backbone,對比同規模 RAG、頂級 RAG 堆疊、HippoRAG2 等:
• 長上下文 QA 平均分:MSA 領先同 backbone RAG 16%,領先最強 RAG 堆 11.5%。
• MS MARCO(700 多萬 Token):MSA 4.141 分,遠超 RAG 系列。
• 多跳資料集(HotpotQA、2Wiki):優勢更誇張。
• NIAH(針在草堆)1M Token:傳統模型崩到 <25%,MSA 仍保持 >94% 準確率。
• 16K → 100M Token 全程:精度衰減 <9%,而其他方案早就斷崖式下跌。
更離譜的是:一個 4B 的 MSA 模型,性能超越了參數量 60 倍的 RAG 系統。這意味著,未來 Agent 不再需要 200B+ 的怪物模型,裝上 MSA 就能擁有接近人類一生的記憶。
EverMind 團隊顯然已經把讓 Agent 擁有個人記憶當作核心使命,而 MSA 就是他們送給全世界的第一份大禮。
github 開源:
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 留言
  • 轉發
  • 分享
留言
請輸入留言內容
請輸入留言內容
暫無留言