MSA(Memory Sparse Attention)— 突破 AI 记忆瓶颈的开源方案
核心问题
当前 AI 模型的记忆能力上限:
- 最强大模型有效上下文约 1M token
- 人类一生能存储的信息约 2-3 亿 token 量级
- 两者相差两个数量级
业界两条老路都碰壁:
- 拉长 context window — 计算成本二次方增长,到头了
- 外挂 RAG — 检索和生成割裂,精度有上限
MSA 是什么
MSA(Memory Sparse Attention)来自 EverMind 团队(盛大旗下),把记忆直接嵌入注意力机制本身,不拉长上下文,不外挂检索。
一句话理解: 传统 RAG 是给模型配了一个外置硬盘;MSA 是给模型装了一个原生记忆芯片。
- 寻找和调用不再是两个独立步骤,而是整合在同一个神经网络里,端到端完成
- 模型自己学会了什么该记、怎么找、怎么用
- 即插即用,只需替换标准 Transformer 的 Self-Attention 层
关键技术细节
- 压缩机制:把 1 亿 token 的存储降到可接受范围
- 分层存储:GPU 放路由索引、CPU 放内容详情,总容量取决于内存而非显存
- 稀疏路由:复杂度从 O(L²) 降到 O(L)
- 位置编码:每篇文档独立编号,训练 64K 就能外推到 100M
性能表现
基于 Qwen3-4B 构建,159B token 持续预训练:
| 测试结果 | 数据 |
|---|---|
| 记忆跨度 | 从 1 万多 token → 1 亿 token(近4个数量级) |
| 质量衰减 | 回答质量仅下降 <9% |
| 标准问答测试 | 40亿参数模型,超越传统 RAG 方案 16% |
| vs 顶级检索器+2350亿参数大模型 | 多项测试仍胜出,参数量差60倍 |
硬件门槛
可直接跑在两张 A800 显卡的机器上,不需要集群。中、小团队甚至个人开发者都能用上亿级 token 长期记忆。
团队背景
- EverMind(盛大旗下)
- 之前做过 GAIA 榜单 SOTA 的多 Agent 框架 Omne、开源记忆平台 EverOS
- 从立项到论文完成,历时九个多月
关键洞察: 模型在「找资料」和「写答案」时需要的信息不同——找资料需要宏观判断,写答案需要微观细节。拆开后各自用专门模块处理,性能质变。
应用前景
- 真正个性化的 AI 助手:记得饮食偏好、项目进展、家人性格
- AI 教育:真正个性化,因材施教
- 医疗助手:跟踪完整病史
- 企业知识库:记住十年项目积累
- 记忆即服务:记忆层作为独立可插拔模块,记忆资产不锁定于单一模型
相关链接
- MSA GitHub:https://github.com/EverMind-AI/MSA
- EverOS GitHub:https://github.com/EverMind-AI/EverOS