支持中国开源记忆革命,AI 终于拥有人类级长期记忆!


100M Token 上下文,4B 小模型完胜 235B RAG!EverMind 开源 MSA 炸场了
你有没有想过:人类一生记忆容量大概 2-3 亿 Token,而今天的 GPT、Claude 最多勉强撑到 200K-1M,超过就崩? RAG 堆再多向量数据库也救不了。检索永远是外挂,多跳推理一断就忘;长上下文模型训练一次就吃掉天价显存,推理还卡得要死。
EverMind-AI 一记重拳,直接把天花板砸穿了。他们开源了 MSA(Memory Sparse Attention),一个真正原生、内置、可端到端训练的长期记忆架构,把 LLM 的记忆容量直接拉到 100,000,000 Token,精度衰减居然不到 9%!
这不是又一个伪长上下文 trick,这是把海马体直接焊进 Transformer 的革命性设计。
//
MSA 到底牛在哪儿?三招秒杀所有前辈
1. 稀疏注意力 + Document-wise RoPE
传统 RoPE 一到超长就位置漂移,MSA 给每个文档独立重置位置计数,训练时 64K 就能无缝外推到 100M。复杂度从 O(n²) 变成近似 O(n),训练和推理都线性可扩展。
2. KV 缓存分层压缩 + Memory Parallel
路由键(超压缩版)常驻 GPU,完整 KV 丢在 CPU 内存里。推理时只 Top-k 拉取需要的文档,2 张 A800 就能跑 100M Token!官方实测:吞吐量直接起飞。
3. Memory Interleave 记忆交织机制
不再是一次性检索,而是让模型自己迭代思考:生成→检索→再生成→再检索。动态决定要多少文档,多跳推理(HotpotQA、2Wiki 等)直接起死回生, ablation 实验显示去掉它精度暴跌 19%+。
一句话总结:MSA 把记忆和思考彻底融合成了一个可微分闭环,不再是先查资料再回答”,而是一边想一边回忆。这才是 AGI 该有的记忆方式。数据不会骗人:4B 模型打爆一切
官方用 Qwen3-4B-Instruct 做 backbone,对比同规模 RAG、顶级 RAG 堆栈、HippoRAG2 等:
• 长上下文 QA 平均分:MSA 领先同 backbone RAG 16%,领先最强 RAG 栈 11.5%。
• MS MARCO(700 多万 Token):MSA 4.141 分,远超 RAG 系列。
• 多跳数据集(HotpotQA、2Wiki):优势更夸张。
• NIAH(针在草堆)1M Token:传统模型崩到 <25%,MSA 仍保持 >94% 准确率。
• 16K → 100M Token 全程:精度衰减 <9%,而其他方案早就断崖式下跌。
更离谱的是:一个 4B 的 MSA 模型,性能超越了参数量 60 倍的 RAG 系统。这意味着。未来 Agent 不再需要 200B+ 的怪物模型,装上 MSA 就能拥有接近人类一生的记忆。
EverMind 团队显然已经把让 Agent 拥有个人记忆当作核心使命,而 MSA 就是他们送给全世界的第一份大礼。
github 开源:
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし