参考文献:Fundamentals of Recurrent Neural Network (RNN) and Long Short-Term Memory (LSTM) Network
理论起源:微分方程视角
微分方程视角:RNN 的动力学方程可由一阶非齐次 ODE 推导而来。设 为 维状态信号向量,其随时间 的演化可表示为:
- 是 维输入信号向量, 为 为状态向量;
- 是 维向量函数,通常依赖于 和 ,即 ;
- 是常数 维向量(偏差项)。
加性模型:这里采用加性模型 (Additive Model),将 分解为三个独立项的线性组合:
记 分别表示状态、读出和输入的延迟时间常数。
- 状态反馈项 :表示状态信号自身的延迟影响("模拟"分量)
- 读出反馈项 :表示经过非线性变换后的读出信号的延迟影响:
- 外部输入项 :表示外部输入信号的延迟影响
延迟微分方程 (DDE) 系统:
线性系数 DDE:当上述函数为线性时,可以转化为具有线性矩阵系数的非线性 DDE:
其中 分别为对应项的系数矩阵。
简化模型 (The Simplified Model):通过以下特定约束,可将通用模型简化为包含 Continuous Hopfield Network 和 Cellular Neural Network 的特例形式:
- 单项约束:设 (每种反馈仅有一项)。
- 延迟约束:设 (状态和输入无延迟),仅保留读出信号的单一延迟 。
- 矩阵重命名:。
时间离散与 RNN 公式
命题(离散化公式):使用向后欧拉离散上述方程可得到
证明:设采样时间步长为 ,时间 。使用后向欧拉法近似导数:
令延迟时间 等于单步采样时间 (即 ):
这里采用了简化记号 。注意方程右侧使用了 时刻的 和 (后向法的特性),但使用了 时刻的 (由延迟 决定)。接着
定义 ,并在方程两边左乘 ,得到:
将索引向前平移一步 () 可得结论。
标准 RNN 形式:为了进一步简化表示,定义新的权重矩阵和偏差向量:
其中
- : 状态自身的递归权重(State-to-State)。
- : 读出信号(即上一时刻的激活值)的反馈权重(Readout-to-State)。
- : 当前输入的权重(Input-to-State)。
稳定性分析
稳定性条件:上述系统稳定的条件是矩阵 的所有特征值必须位于复平面的单位圆内。
标准 RNN 定义:在实际应用中,常作进一步简化以获得最简形式:
- 单位时间步长:设 。
- 快速状态衰减:假设矩阵 为对角阵且对角元为很大的负数(),这意味着状态的衰减非常快。
- 忽略状态记忆:由此导致 为对角阵且元素为很小的正数。在这种情况下,状态信号 对当前轨迹的显式影响(第一项)可以忽略不计(尽管通过 的隐式影响依然存在)。
- 忽略 项(即设 )
我们得到最常见的标准 RNN 定义,其中 通常是 函数
在此简化下,系统的稳定性完全取决于 的特征值 。在“小信号”区域(),稳定性的充要条件是 。