2026-04-13 15:02:48

支持中國開源記憶革命，AI 終於擁有人類級長期記憶！

100M Token 上下文，4B 小模型完勝 235B RAG！EverMind 開源 MSA 炸場了
你有沒有想過：人類一生記憶容量大概 2-3 億 Token，而今天的 GPT、Claude 最多勉強撐到 200K-1M，超過就崩？ RAG 堆再多向量資料庫也救不了。檢索永遠是外掛，多跳推理一斷就忘；長上下文模型訓練一次就吃掉天價顯存，推理還卡得要死。
EverMind-AI 一記重拳，直接把天花板砸穿了。他們開源了 MSA（Memory Sparse Attention），一個真正原生、內置、可端到端訓練的長期記憶架構，把 LLM 的記憶容量直接拉到 100,000,000 Token，精度衰減居然不到 9%！
這不是又一個偽長上下文 trick，這是把海馬體直接焊進 Transformer 的革命性設計。
//
MSA 到底牛在哪兒？三招秒殺所有前輩
1. 稀疏注意力 + Document-wise RoPE 傳統 RoPE 一到超長就位置漂移，MSA 給每個文檔獨立重置位置計數，訓練時 64K 就能無縫外推到 100M。複雜度從 O(n²) 變成近似 O(n)，訓練和推理都線性可擴展。
2. KV 緩存分層壓縮 + Memory Parallel 路由鍵（超壓縮版）常駐 GPU，完整 KV 丟在 CPU 內存裡。推理時只 Top-k 拉取需要的文檔，2 張 A800 就能跑 100M Token！官方實測：吞吐量直接起飛。
3. Memory Interleave 記憶交織機制 不再是一次性檢索，而是讓模型自己迭代思考：生成→檢索→再生成→再檢索。動態決定要多少文檔，多跳推理（HotpotQA、2Wiki 等）直接起死回生， ablation 實驗顯示去掉它精度暴跌 19%+。
一句話總結：MSA 把記憶和思考徹底融合成了一個可微分閉環，不再是“先查資料再回答”，而是一邊想一邊回憶。這才是 AGI 該有的記憶方式。數據不會騙人：4B 模型打爆一切
官方用 Qwen3-4B-Instruct 做 backbone，對比同規模 RAG、頂級 RAG 堆疊、HippoRAG2 等：
• 長上下文 QA 平均分：MSA 領先同 backbone RAG 16%，領先最強 RAG 堆 11.5%。
• MS MARCO（700 多萬 Token）：MSA 4.141 分，遠超 RAG 系列。
• 多跳資料集（HotpotQA、2Wiki）：優勢更誇張。
• NIAH（針在草堆）1M Token：傳統模型崩到 <25%，MSA 仍保持 >94% 準確率。
• 16K → 100M Token 全程：精度衰減 <9%，而其他方案早就斷崖式下跌。
更離譜的是：一個 4B 的 MSA 模型，性能超越了參數量 60 倍的 RAG 系統。這意味著，未來 Agent 不再需要 200B+ 的怪物模型，裝上 MSA 就能擁有接近人類一生的記憶。
EverMind 團隊顯然已經把讓 Agent 擁有個人記憶當作核心使命，而 MSA 就是他們送給全世界的第一份大禮。
github 開源：

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

打賞
按讚
留言
轉發
分享

留言

請輸入留言內容

暫無留言

熱門話題
查看更多
#
WCTC交易賽瓜分800萬USDT
62.88萬熱度
#
Gate13週年
39.75萬熱度
#
加密市場回升
7.84萬熱度
#
美軍封鎖霍爾木茲海峽
72.73萬熱度
#
Strategy上週購入13927枚比特幣
647.61萬熱度

支持中國開源記憶革命，AI 終於擁有人類級長期記憶！

熱門話題

WCTC交易賽瓜分800萬USDT

Gate13週年

加密市場回升

美軍封鎖霍爾木茲海峽

Strategy上週購入13927枚比特幣

置頂