MSA(Memory Sparse Attention)— 突破 AI 记忆瓶颈的开源方案

核心问题

当前 AI 模型的记忆能力上限:

  • 最强大模型有效上下文约 1M token
  • 人类一生能存储的信息约 2-3 亿 token 量级
  • 两者相差两个数量级

业界两条老路都碰壁:

  1. 拉长 context window — 计算成本二次方增长,到头了
  2. 外挂 RAG — 检索和生成割裂,精度有上限

MSA 是什么

MSA(Memory Sparse Attention)来自 EverMind 团队(盛大旗下),把记忆直接嵌入注意力机制本身,不拉长上下文,不外挂检索。

一句话理解: 传统 RAG 是给模型配了一个外置硬盘;MSA 是给模型装了一个原生记忆芯片。

  • 寻找和调用不再是两个独立步骤,而是整合在同一个神经网络里,端到端完成
  • 模型自己学会了什么该记、怎么找、怎么用
  • 即插即用,只需替换标准 Transformer 的 Self-Attention 层

关键技术细节

  1. 压缩机制:把 1 亿 token 的存储降到可接受范围
  2. 分层存储:GPU 放路由索引、CPU 放内容详情,总容量取决于内存而非显存
  3. 稀疏路由:复杂度从 O(L²) 降到 O(L)
  4. 位置编码:每篇文档独立编号,训练 64K 就能外推到 100M

性能表现

基于 Qwen3-4B 构建,159B token 持续预训练:

测试结果 数据
记忆跨度 从 1 万多 token → 1 亿 token(近4个数量级)
质量衰减 回答质量仅下降 <9%
标准问答测试 40亿参数模型,超越传统 RAG 方案 16%
vs 顶级检索器+2350亿参数大模型 多项测试仍胜出,参数量差60倍

硬件门槛

可直接跑在两张 A800 显卡的机器上,不需要集群。中、小团队甚至个人开发者都能用上亿级 token 长期记忆。

团队背景

  • EverMind(盛大旗下)
  • 之前做过 GAIA 榜单 SOTA 的多 Agent 框架 Omne、开源记忆平台 EverOS
  • 从立项到论文完成,历时九个多月

关键洞察: 模型在「找资料」和「写答案」时需要的信息不同——找资料需要宏观判断,写答案需要微观细节。拆开后各自用专门模块处理,性能质变。

应用前景

  • 真正个性化的 AI 助手:记得饮食偏好、项目进展、家人性格
  • AI 教育:真正个性化,因材施教
  • 医疗助手:跟踪完整病史
  • 企业知识库:记住十年项目积累
  • 记忆即服务:记忆层作为独立可插拔模块,记忆资产不锁定于单一模型

相关链接