RNN - State Space Models

参考文献：Fundamentals of Recurrent Neural Network (RNN) and Long Short-Term Memory (LSTM) Network

理论起源：微分方程视角

微分方程视角：RNN 的动力学方程可由一阶非齐次 ODE 推导而来。设 $s (t) \in R^{d}$ 为 $d$ 维状态信号向量，其随时间 $t$ 的演化可表示为：

$\frac{d s ( t )}{d t} = f (t) + ϕ$

$x (t)$ 是 $d$ 维输入信号向量， $s$ 为 $d$ 为状态向量；
$f (t)$ 是 $d$ 维向量函数，通常依赖于 $s (t)$ 和 $x (t)$ ，即 $f (t) = h (s (t), x (t))$ ；
$ϕ$ 是常数 $d$ 维向量（偏差项）。

加性模型：这里采用加性模型 (Additive Model)，将 $f (t)$ 分解为三个独立项的线性组合：

$f (t) = a (t) + b (t) + c (t)$

记 $τ_{s}, τ_{r}, τ_{x}$ 分别表示状态、读出和输入的延迟时间常数。

状态反馈项 $a (t)$ ：表示状态信号自身的延迟影响（"模拟"分量）

$a (t) = k = 0 \sum K_{s} - 1 a_{k} (s (t - τ_{s} (k)))$

读出反馈项 $b (t)$ ：表示经过非线性变换后的读出信号的延迟影响：

$b (t) = k = 0 \sum K_{r} - 1 b_{k} (r (t - τ_{r} (k)))$

外部输入项 $c (t)$ ：表示外部输入信号的延迟影响

$c (t) = k = 0 \sum K_{x} - 1 c_{k} (x (t - τ_{x} (k)))$

延迟微分方程 (DDE) 系统：

$\frac{d s ( t )}{d t} = 状态反馈 k = 0 \sum K_{s} - 1 a_{k} (s (t - τ_{s} (k))) + 读出反馈 k = 0 \sum K_{r} - 1 b_{k} (r (t - τ_{r} (k))) + 外部输入 k = 0 \sum K_{x} - 1 c_{k} (x (t - τ_{x} (k))) + ϕ$

线性系数 DDE：当上述函数为线性时，可以转化为具有线性矩阵系数的非线性 DDE：

$\frac{d s ( t )}{d t} = k = 0 \sum K_{s} - 1 A_{k} s (t - τ_{s} (k)) + k = 0 \sum K_{r} - 1 B_{k} r (t - τ_{r} (k)) + k = 0 \sum K_{x} - 1 C_{k} x (t - τ_{x} (k)) + ϕ$

其中 $A_{k}, B_{k}, C_{k}$ 分别为对应项的系数矩阵。

简化模型 (The Simplified Model)：通过以下特定约束，可将通用模型简化为包含 Continuous Hopfield Network 和 Cellular Neural Network 的特例形式：

单项约束：设 $K_{s} = K_{r} = K_{x} = 1$ （每种反馈仅有一项）。
延迟约束：设 $τ_{s} (0) = 0, τ_{x} (0) = 0$ （状态和输入无延迟），仅保留读出信号的单一延迟 $τ_{r} (0) = τ_{0}$ 。
矩阵重命名： $A_{0} = A, B_{0} = B, C_{0} = C$ 。

$\frac{d s ( t )}{d t} = A s (t) + B r (t - τ_{0}) + C x (t) + ϕ$

时间离散与 RNN 公式

命题(离散化公式)：使用向后欧拉离散上述方程可得到

$s [n] = W_{s} s [n - 1] + 循环 / 记忆项 ((Δ T) W_{s} B) r [n - 1] + 输入项 ((Δ T) W_{s} C) x [n] + 偏差项 ((Δ T) W_{s} ϕ)$

证明：设采样时间步长为 $Δ T$ ，时间 $t = n Δ T$ 。使用后向欧拉法近似导数：

$\frac{d s ( t )}{d t} \approx \frac{s ( n Δ T + Δ T ) - s ( n Δ T )}{Δ T}$

令延迟时间 $τ_{0}$ 等于单步采样时间 $Δ T$ （即 $τ_{0} = Δ T$ ）：

$\frac{s [ n + 1 ] - s [ n ]}{Δ T} = A s [n + 1] + B r [n] + C x [n + 1] + ϕ$

这里采用了简化记号 $s [n] \equiv s (n Δ T)$ 。注意方程右侧使用了 $n + 1$ 时刻的 $s$ 和 $x$ （后向法的特性），但使用了 $n$ 时刻的 $r$ （由延迟 $τ_{0}$ 决定）。接着

$(I - (Δ T) A) s [n + 1] = s [n] + ((Δ T) B) r [n] + ((Δ T) C) x [n + 1] + (Δ T) ϕ$

定义 $W_{s} = (I - (Δ T) A)^{- 1}$ ，并在方程两边左乘 $W_{s}$ ，得到：

$s [n + 1] = W_{s} s [n] + ((Δ T) W_{s} B) r [n] + ((Δ T) W_{s} C) x [n + 1] + ((Δ T) W_{s} ϕ)$

将索引向前平移一步 ( $n \to n - 1$ ) 可得结论。

标准 RNN 形式：为了进一步简化表示，定义新的权重矩阵和偏差向量：

$s [n] r [n] = W_{s} s [n - 1] + W_{r} r [n - 1] + W_{x} x [n] + θ_{s} = G (s [n])$

其中

$W_{r} = (Δ T) W_{s} B, W_{x} = (Δ T) W_{s} C, θ_{s} = (Δ T) W_{s} ϕ$

$W_{s}$ : 状态自身的递归权重（State-to-State）。
$W_{r}$ : 读出信号（即上一时刻的激活值）的反馈权重（Readout-to-State）。
$W_{x}$ : 当前输入的权重（Input-to-State）。

稳定性分析

稳定性条件：上述系统稳定的条件是矩阵 $\hat{W} = W_{s} + W_{r}$ 的所有特征值必须位于复平面的单位圆内。

标准 RNN 定义：在实际应用中，常作进一步简化以获得最简形式：

单位时间步长：设 $Δ T = 1$ 。
快速状态衰减：假设矩阵 $A$ 为对角阵且对角元为很大的负数（ $a_{ii} ≪ 0$ ），这意味着状态的衰减非常快。
忽略状态记忆：由此导致 $W_{s} \approx - A^{- 1}$ 为对角阵且元素为很小的正数。在这种情况下，状态信号 $s [n - 1]$ 对当前轨迹的显式影响（第一项）可以忽略不计（尽管通过 $r [n - 1]$ 的隐式影响依然存在）。
忽略 $W_{s}$ 项（即设 $W_{s} \approx 0$ ）

我们得到最常见的标准 RNN 定义，其中 $G (s)$ 通常是 $tanh$ 函数

$s [n] r [n] = W_{r} r [n - 1] + W_{x} x [n] + θ_{s} = G (s [n])$

在此简化下，系统的稳定性完全取决于 $W_{r}$ 的特征值 $μ_{i}$ 。在“小信号”区域（ $∥ s [n] ∥ ≪ 1$ ），稳定性的充要条件是 $0 < μ_{i} < 1$ 。

Keyboard shortcuts

State Space Models

理论起源：微分方程视角

时间离散与 RNN 公式

稳定性分析