Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

参考文献:Fundamentals of Recurrent Neural Network (RNN) and Long Short-Term Memory (LSTM) Network

理论起源:微分方程视角

微分方程视角:RNN 的动力学方程可由一阶非齐次 ODE 推导而来。设 维状态信号向量,其随时间 的演化可表示为:

  • 维输入信号向量, 为状态向量;
  • 维向量函数,通常依赖于 ,即
  • 是常数 维向量(偏差项)。

加性模型:这里采用加性模型 (Additive Model),将 分解为三个独立项的线性组合:

分别表示状态、读出和输入的延迟时间常数。

  • 状态反馈项 :表示状态信号自身的延迟影响("模拟"分量)

  • 读出反馈项 :表示经过非线性变换后的读出信号的延迟影响:

  • 外部输入项 :表示外部输入信号的延迟影响

延迟微分方程 (DDE) 系统

线性系数 DDE:当上述函数为线性时,可以转化为具有线性矩阵系数的非线性 DDE:

其中 分别为对应项的系数矩阵。

简化模型 (The Simplified Model):通过以下特定约束,可将通用模型简化为包含 Continuous Hopfield Network 和 Cellular Neural Network 的特例形式:

  • 单项约束:设 (每种反馈仅有一项)。
  • 延迟约束:设 (状态和输入无延迟),仅保留读出信号的单一延迟
  • 矩阵重命名:

时间离散与 RNN 公式

命题(离散化公式):使用向后欧拉离散上述方程可得到

证明:设采样时间步长为 ,时间 。使用后向欧拉法近似导数:

令延迟时间 等于单步采样时间 (即 ):

这里采用了简化记号 。注意方程右侧使用了 时刻的 (后向法的特性),但使用了 时刻的 (由延迟 决定)。接着

定义 ,并在方程两边左乘 ,得到:

将索引向前平移一步 () 可得结论。

标准 RNN 形式:为了进一步简化表示,定义新的权重矩阵和偏差向量:

其中

  • : 状态自身的递归权重(State-to-State)。
  • : 读出信号(即上一时刻的激活值)的反馈权重(Readout-to-State)。
  • : 当前输入的权重(Input-to-State)。

稳定性分析

稳定性条件:上述系统稳定的条件是矩阵 的所有特征值必须位于复平面的单位圆内。

标准 RNN 定义:在实际应用中,常作进一步简化以获得最简形式:

  • 单位时间步长:设
  • 快速状态衰减:假设矩阵 为对角阵且对角元为很大的负数(),这意味着状态的衰减非常快。
  • 忽略状态记忆:由此导致 为对角阵且元素为很小的正数。在这种情况下,状态信号 对当前轨迹的显式影响(第一项)可以忽略不计(尽管通过 的隐式影响依然存在)。
  • 忽略 项(即设

我们得到最常见的标准 RNN 定义,其中 通常是 函数

在此简化下,系统的稳定性完全取决于 的特征值 。在“小信号”区域(),稳定性的充要条件是

原论文

Investigation of Memory Patterns

SSM 中的记忆衰减

状态更新方程 (State Update Equation):考虑如下更新格式

  • : 状态转移矩阵,满足 (谱半径小于 1)以保证 BIBO 稳定性。
  • : 时刻的隐藏状态。
  • : 时刻的输入。

信息贡献衰减 (Decay of Information Contribution):为了衡量输入 (发生在 步之前) 对当前状态 的影响,定义其贡献度:

指数级遗忘: 随着 增加 (输入变得更久远), 呈指数级衰减 ()。因此早期输入几乎被完全遗忘,导致长距离信息丢失。

Transformer 中的记忆衰减

Transformer 时间复杂度 (Time Complexity, TC):令 为序列长度, 是网络层数, 是特征维度

对于超长序列 (如 ), 项导致运算量 () 超出硬件承载能力。因此在实际应用中,为了解决计算瓶颈,通常采用近似方法(如滑动窗口注意力,窗口大小 )。

有效建模长度 (Effective Modeling Length, EML):滑动窗口注意力引入了截断效应:

窗口之外的信息被直接丢弃,导致无法捕捉超长依赖。

水平与垂直记忆保真度 (Horizontal and Vertical Memory Fidelity)

为了系统地量化关键信息的丢失,本文提出了 水平-垂直记忆保真度框架 (Horizontal–Vertical Memory Fidelity Framework)。

定义(Expected Token Memory Fidelity, ETMF):Token 级的语义信息在层内递归传播过程中的保留程度,维度水平 (Horizontal)

定义(Expected Cross-Layer Memory Fidelity):信息在跨层垂直传输过程中的保留程度,维度垂直(Vertical)

Mamba 记忆的双重挑战:(1) 记忆衰减 Memory Decay,由 ETMF 反映,长距离 Token 语义在递归中逐渐模糊。(2) 外推限制 (Extrapolation Limits),由 ECLMF 量化,信息在深层网络传播中的退化。

Methodology: The MemMamba Network

理念与架构

动机 (Motivation): 现有的状态空间模型 (SSMs) 虽然具有线性复杂度,但在递归更新中会逐渐丢失长距离依赖信息。

灵感 (Inspiration): 模拟人类阅读长文档时的"做笔记" (Note-taking) 行为 —— 当遇到关键信息时将其记录下来,而非试图死记硬背所有内容。

解决方案: MemMamba 在有限的表示空间内动态保存关键上下文,并提供跨层和跨 Token 的长距离交互索引。

架构概述:MemMamba 由 个堆叠的 MemMamba Block Layers 组成。每层集成三个组件:

  • SSM 更新 (State Space Model updates)
  • 跨 Token 注意力 (Cross-token attention):在每一层执行,用于恢复层内被遗忘的信息。
  • 跨层注意力 (Cross-layer attention):每隔 层触发一次 (),用于整合全局深层信息。

模块细节

笔记模块 Note Block:第 层,时间步 ,对输入 使用评分函数 进行评估。如果评分超过阈值 ,执行“做笔记”操作,通过降维算子 (如线性投影或池化) 生成摘要 并插入状态池 (state pool)

策略: 状态池采用 FIFO 或基于优先级的替换策略,确保仅保留高信息量的摘要。

跨 Token 注意力 Cross-Token Attention:当检测到当前 SSM 状态可能遗忘重要信息时(即状态评分 )。在当前输入 (Query) 与状态池摘要 (Key/Value) 之间进行注意力计算。

跨层注意力 Cross-Layer Attention:稀疏激活,仅在特定的层 () 触发。聚合过去 层的状态摘要形成跨层上下文 ,并进行注意力计算。

信息聚合:最终输出 是原始输入与两种上下文信息的融合,随后传入 SSM 更新:

: 融合函数 (如门控机制或残差映射)。

图片讲解

MemMamba 架构

  • 布局:纵向 层 Layer (神经网络深度);横向是时间轴,代表数据从左往右流过;Layer k+1 的输入是 Layer k 的输出;
  • MemMamba Block:接收当前的 Input Token,生成隐藏状态 h2, h3, ... 并传递给下一个时间步;
  • Note Block 记笔记:每个 MemMamba Block 下面有个 note block,如果输入 token 重要 (),则会被存进 state pool (蓝色长条) 中。每隔 层会执行一次跨层注意力。
  • Note Block 查笔记:当 MemMamba Block 发现 中信息不够了 (),则立刻回去查阅蓝色池子中的笔记
  • 深度整合:最底部的 Layer i 是 MemMamba Block (layer),上面的层主要关注水平的记忆,而 Layer i 则触发垂直跨层注意力。

alt text

alt text