Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

参考文献:Fundamentals of Recurrent Neural Network (RNN) and Long Short-Term Memory (LSTM) Network

理论起源:微分方程视角

微分方程视角:RNN 的动力学方程可由一阶非齐次 ODE 推导而来。设 维状态信号向量,其随时间 的演化可表示为:

  • 维输入信号向量, 为状态向量;
  • 维向量函数,通常依赖于 ,即
  • 是常数 维向量(偏差项)。

加性模型:这里采用加性模型 (Additive Model),将 分解为三个独立项的线性组合:

分别表示状态、读出和输入的延迟时间常数。

  • 状态反馈项 :表示状态信号自身的延迟影响("模拟"分量)

  • 读出反馈项 :表示经过非线性变换后的读出信号的延迟影响:

  • 外部输入项 :表示外部输入信号的延迟影响

延迟微分方程 (DDE) 系统

线性系数 DDE:当上述函数为线性时,可以转化为具有线性矩阵系数的非线性 DDE:

其中 分别为对应项的系数矩阵。

简化模型 (The Simplified Model):通过以下特定约束,可将通用模型简化为包含 Continuous Hopfield Network 和 Cellular Neural Network 的特例形式:

  • 单项约束:设 (每种反馈仅有一项)。
  • 延迟约束:设 (状态和输入无延迟),仅保留读出信号的单一延迟
  • 矩阵重命名:

时间离散与 RNN 公式

命题(离散化公式):使用向后欧拉离散上述方程可得到

证明:设采样时间步长为 ,时间 。使用后向欧拉法近似导数:

令延迟时间 等于单步采样时间 (即 ):

这里采用了简化记号 。注意方程右侧使用了 时刻的 (后向法的特性),但使用了 时刻的 (由延迟 决定)。接着

定义 ,并在方程两边左乘 ,得到:

将索引向前平移一步 () 可得结论。

标准 RNN 形式:为了进一步简化表示,定义新的权重矩阵和偏差向量:

其中

  • : 状态自身的递归权重(State-to-State)。
  • : 读出信号(即上一时刻的激活值)的反馈权重(Readout-to-State)。
  • : 当前输入的权重(Input-to-State)。

稳定性分析

稳定性条件:上述系统稳定的条件是矩阵 的所有特征值必须位于复平面的单位圆内。

标准 RNN 定义:在实际应用中,常作进一步简化以获得最简形式:

  • 单位时间步长:设
  • 快速状态衰减:假设矩阵 为对角阵且对角元为很大的负数(),这意味着状态的衰减非常快。
  • 忽略状态记忆:由此导致 为对角阵且元素为很小的正数。在这种情况下,状态信号 对当前轨迹的显式影响(第一项)可以忽略不计(尽管通过 的隐式影响依然存在)。
  • 忽略 项(即设

我们得到最常见的标准 RNN 定义,其中 通常是 函数

在此简化下,系统的稳定性完全取决于 的特征值 。在“小信号”区域(),稳定性的充要条件是