参考文献:Fundamentals of Recurrent Neural Network (RNN) and Long Short-Term Memory (LSTM) Network
理论起源:微分方程视角
微分方程视角:RNN 的动力学方程可由一阶非齐次 ODE 推导而来。设 为 维状态信号向量,其随时间 的演化可表示为:
- 是 维输入信号向量, 为 为状态向量;
- 是 维向量函数,通常依赖于 和 ,即 ;
- 是常数 维向量(偏差项)。
加性模型:这里采用加性模型 (Additive Model),将 分解为三个独立项的线性组合:
记 分别表示状态、读出和输入的延迟时间常数。
- 状态反馈项 :表示状态信号自身的延迟影响("模拟"分量)
- 读出反馈项 :表示经过非线性变换后的读出信号的延迟影响:
- 外部输入项 :表示外部输入信号的延迟影响
延迟微分方程 (DDE) 系统:
线性系数 DDE:当上述函数为线性时,可以转化为具有线性矩阵系数的非线性 DDE:
其中 分别为对应项的系数矩阵。
简化模型 (The Simplified Model):通过以下特定约束,可将通用模型简化为包含 Continuous Hopfield Network 和 Cellular Neural Network 的特例形式:
- 单项约束:设 (每种反馈仅有一项)。
- 延迟约束:设 (状态和输入无延迟),仅保留读出信号的单一延迟 。
- 矩阵重命名:。
时间离散与 RNN 公式
命题(离散化公式):使用向后欧拉离散上述方程可得到
证明:设采样时间步长为 ,时间 。使用后向欧拉法近似导数:
令延迟时间 等于单步采样时间 (即 ):
这里采用了简化记号 。注意方程右侧使用了 时刻的 和 (后向法的特性),但使用了 时刻的 (由延迟 决定)。接着
定义 ,并在方程两边左乘 ,得到:
将索引向前平移一步 () 可得结论。
标准 RNN 形式:为了进一步简化表示,定义新的权重矩阵和偏差向量:
其中
- : 状态自身的递归权重(State-to-State)。
- : 读出信号(即上一时刻的激活值)的反馈权重(Readout-to-State)。
- : 当前输入的权重(Input-to-State)。
稳定性分析
稳定性条件:上述系统稳定的条件是矩阵 的所有特征值必须位于复平面的单位圆内。
标准 RNN 定义:在实际应用中,常作进一步简化以获得最简形式:
- 单位时间步长:设 。
- 快速状态衰减:假设矩阵 为对角阵且对角元为很大的负数(),这意味着状态的衰减非常快。
- 忽略状态记忆:由此导致 为对角阵且元素为很小的正数。在这种情况下,状态信号 对当前轨迹的显式影响(第一项)可以忽略不计(尽管通过 的隐式影响依然存在)。
- 忽略 项(即设 )
我们得到最常见的标准 RNN 定义,其中 通常是 函数
在此简化下,系统的稳定性完全取决于 的特征值 。在“小信号”区域(),稳定性的充要条件是 。
Investigation of Memory Patterns
SSM 中的记忆衰减
状态更新方程 (State Update Equation):考虑如下更新格式
- : 状态转移矩阵,满足 (谱半径小于 1)以保证 BIBO 稳定性。
- : 时刻的隐藏状态。
- : 时刻的输入。
信息贡献衰减 (Decay of Information Contribution):为了衡量输入 (发生在 步之前) 对当前状态 的影响,定义其贡献度:
指数级遗忘: 随着 增加 (输入变得更久远), 呈指数级衰减 ()。因此早期输入几乎被完全遗忘,导致长距离信息丢失。
Transformer 中的记忆衰减
Transformer 时间复杂度 (Time Complexity, TC):令 为序列长度, 是网络层数, 是特征维度
对于超长序列 (如 ), 项导致运算量 () 超出硬件承载能力。因此在实际应用中,为了解决计算瓶颈,通常采用近似方法(如滑动窗口注意力,窗口大小 )。
有效建模长度 (Effective Modeling Length, EML):滑动窗口注意力引入了截断效应:
窗口之外的信息被直接丢弃,导致无法捕捉超长依赖。
水平与垂直记忆保真度 (Horizontal and Vertical Memory Fidelity)
为了系统地量化关键信息的丢失,本文提出了 水平-垂直记忆保真度框架 (Horizontal–Vertical Memory Fidelity Framework)。
定义(Expected Token Memory Fidelity, ETMF):Token 级的语义信息在层内递归传播过程中的保留程度,维度水平 (Horizontal)
定义(Expected Cross-Layer Memory Fidelity):信息在跨层垂直传输过程中的保留程度,维度垂直(Vertical)
Mamba 记忆的双重挑战:(1) 记忆衰减 Memory Decay,由 ETMF 反映,长距离 Token 语义在递归中逐渐模糊。(2) 外推限制 (Extrapolation Limits),由 ECLMF 量化,信息在深层网络传播中的退化。
Methodology: The MemMamba Network
理念与架构
动机 (Motivation): 现有的状态空间模型 (SSMs) 虽然具有线性复杂度,但在递归更新中会逐渐丢失长距离依赖信息。
灵感 (Inspiration): 模拟人类阅读长文档时的"做笔记" (Note-taking) 行为 —— 当遇到关键信息时将其记录下来,而非试图死记硬背所有内容。
解决方案: MemMamba 在有限的表示空间内动态保存关键上下文,并提供跨层和跨 Token 的长距离交互索引。
架构概述:MemMamba 由 个堆叠的 MemMamba Block Layers 组成。每层集成三个组件:
- SSM 更新 (State Space Model updates)
- 跨 Token 注意力 (Cross-token attention):在每一层执行,用于恢复层内被遗忘的信息。
- 跨层注意力 (Cross-layer attention):每隔 层触发一次 (),用于整合全局深层信息。
模块细节
笔记模块 Note Block:第 层,时间步 ,对输入 使用评分函数 进行评估。如果评分超过阈值 ,执行“做笔记”操作,通过降维算子 (如线性投影或池化) 生成摘要 并插入状态池 (state pool) 。
策略: 状态池采用 FIFO 或基于优先级的替换策略,确保仅保留高信息量的摘要。
跨 Token 注意力 Cross-Token Attention:当检测到当前 SSM 状态可能遗忘重要信息时(即状态评分 )。在当前输入 (Query) 与状态池摘要 (Key/Value) 之间进行注意力计算。
跨层注意力 Cross-Layer Attention:稀疏激活,仅在特定的层 () 触发。聚合过去 层的状态摘要形成跨层上下文 ,并进行注意力计算。
信息聚合:最终输出 是原始输入与两种上下文信息的融合,随后传入 SSM 更新:
: 融合函数 (如门控机制或残差映射)。
图片讲解
MemMamba 架构
- 布局:纵向 层 Layer (神经网络深度);横向是时间轴,代表数据从左往右流过;Layer k+1 的输入是 Layer k 的输出;
- MemMamba Block:接收当前的 Input Token,生成隐藏状态
h2, h3, ...并传递给下一个时间步; - Note Block 记笔记:每个 MemMamba Block 下面有个 note block,如果输入 token 重要 (),则会被存进 state pool (蓝色长条) 中。每隔 层会执行一次跨层注意力。
- Note Block 查笔记:当 MemMamba Block 发现 中信息不够了 (),则立刻回去查阅蓝色池子中的笔记
- 深度整合:最底部的 Layer i 是 MemMamba Block (layer),上面的层主要关注水平的记忆,而 Layer i 则触发垂直跨层注意力。

