State Space Models

参考文献：Fundamentals of Recurrent Neural Network (RNN) and Long Short-Term Memory (LSTM) Network

理论起源：微分方程视角

微分方程视角：RNN 的动力学方程可由一阶非齐次 ODE 推导而来。设 $s (t) \in R^{d}$ 为 $d$ 维状态信号向量，其随时间 $t$ 的演化可表示为：

$\frac{d s ( t )}{d t} = f (t) + ϕ$

$x (t)$ 是 $d$ 维输入信号向量， $s$ 为 $d$ 为状态向量；
$f (t)$ 是 $d$ 维向量函数，通常依赖于 $s (t)$ 和 $x (t)$ ，即 $f (t) = h (s (t), x (t))$ ；
$ϕ$ 是常数 $d$ 维向量（偏差项）。

加性模型：这里采用加性模型 (Additive Model)，将 $f (t)$ 分解为三个独立项的线性组合：

$f (t) = a (t) + b (t) + c (t)$

记 $τ_{s}, τ_{r}, τ_{x}$ 分别表示状态、读出和输入的延迟时间常数。

状态反馈项 $a (t)$ ：表示状态信号自身的延迟影响（"模拟"分量）

$a (t) = k = 0 \sum K_{s} - 1 a_{k} (s (t - τ_{s} (k)))$

读出反馈项 $b (t)$ ：表示经过非线性变换后的读出信号的延迟影响：

$b (t) = k = 0 \sum K_{r} - 1 b_{k} (r (t - τ_{r} (k)))$

外部输入项 $c (t)$ ：表示外部输入信号的延迟影响

$c (t) = k = 0 \sum K_{x} - 1 c_{k} (x (t - τ_{x} (k)))$

延迟微分方程 (DDE) 系统：

$\frac{d s ( t )}{d t} = 状态反馈 k = 0 \sum K_{s} - 1 a_{k} (s (t - τ_{s} (k))) + 读出反馈 k = 0 \sum K_{r} - 1 b_{k} (r (t - τ_{r} (k))) + 外部输入 k = 0 \sum K_{x} - 1 c_{k} (x (t - τ_{x} (k))) + ϕ$

线性系数 DDE：当上述函数为线性时，可以转化为具有线性矩阵系数的非线性 DDE：

$\frac{d s ( t )}{d t} = k = 0 \sum K_{s} - 1 A_{k} s (t - τ_{s} (k)) + k = 0 \sum K_{r} - 1 B_{k} r (t - τ_{r} (k)) + k = 0 \sum K_{x} - 1 C_{k} x (t - τ_{x} (k)) + ϕ$

其中 $A_{k}, B_{k}, C_{k}$ 分别为对应项的系数矩阵。

简化模型 (The Simplified Model)：通过以下特定约束，可将通用模型简化为包含 Continuous Hopfield Network 和 Cellular Neural Network 的特例形式：

单项约束：设 $K_{s} = K_{r} = K_{x} = 1$ （每种反馈仅有一项）。
延迟约束：设 $τ_{s} (0) = 0, τ_{x} (0) = 0$ （状态和输入无延迟），仅保留读出信号的单一延迟 $τ_{r} (0) = τ_{0}$ 。
矩阵重命名： $A_{0} = A, B_{0} = B, C_{0} = C$ 。

$\frac{d s ( t )}{d t} = A s (t) + B r (t - τ_{0}) + C x (t) + ϕ$

时间离散与 RNN 公式

命题(离散化公式)：使用向后欧拉离散上述方程可得到

$s [n] = W_{s} s [n - 1] + 循环 / 记忆项 ((Δ T) W_{s} B) r [n - 1] + 输入项 ((Δ T) W_{s} C) x [n] + 偏差项 ((Δ T) W_{s} ϕ)$

证明：设采样时间步长为 $Δ T$ ，时间 $t = n Δ T$ 。使用后向欧拉法近似导数：

$\frac{d s ( t )}{d t} \approx \frac{s ( n Δ T + Δ T ) - s ( n Δ T )}{Δ T}$

令延迟时间 $τ_{0}$ 等于单步采样时间 $Δ T$ （即 $τ_{0} = Δ T$ ）：

$\frac{s [ n + 1 ] - s [ n ]}{Δ T} = A s [n + 1] + B r [n] + C x [n + 1] + ϕ$

这里采用了简化记号 $s [n] \equiv s (n Δ T)$ 。注意方程右侧使用了 $n + 1$ 时刻的 $s$ 和 $x$ （后向法的特性），但使用了 $n$ 时刻的 $r$ （由延迟 $τ_{0}$ 决定）。接着

$(I - (Δ T) A) s [n + 1] = s [n] + ((Δ T) B) r [n] + ((Δ T) C) x [n + 1] + (Δ T) ϕ$

定义 $W_{s} = (I - (Δ T) A)^{- 1}$ ，并在方程两边左乘 $W_{s}$ ，得到：

$s [n + 1] = W_{s} s [n] + ((Δ T) W_{s} B) r [n] + ((Δ T) W_{s} C) x [n + 1] + ((Δ T) W_{s} ϕ)$

将索引向前平移一步 ( $n \to n - 1$ ) 可得结论。

标准 RNN 形式：为了进一步简化表示，定义新的权重矩阵和偏差向量：

$s [n] r [n] = W_{s} s [n - 1] + W_{r} r [n - 1] + W_{x} x [n] + θ_{s} = G (s [n])$

其中

$W_{r} = (Δ T) W_{s} B, W_{x} = (Δ T) W_{s} C, θ_{s} = (Δ T) W_{s} ϕ$

$W_{s}$ : 状态自身的递归权重（State-to-State）。
$W_{r}$ : 读出信号（即上一时刻的激活值）的反馈权重（Readout-to-State）。
$W_{x}$ : 当前输入的权重（Input-to-State）。

稳定性分析

稳定性条件：上述系统稳定的条件是矩阵 $\hat{W} = W_{s} + W_{r}$ 的所有特征值必须位于复平面的单位圆内。

标准 RNN 定义：在实际应用中，常作进一步简化以获得最简形式：

单位时间步长：设 $Δ T = 1$ 。
快速状态衰减：假设矩阵 $A$ 为对角阵且对角元为很大的负数（ $a_{ii} ≪ 0$ ），这意味着状态的衰减非常快。
忽略状态记忆：由此导致 $W_{s} \approx - A^{- 1}$ 为对角阵且元素为很小的正数。在这种情况下，状态信号 $s [n - 1]$ 对当前轨迹的显式影响（第一项）可以忽略不计（尽管通过 $r [n - 1]$ 的隐式影响依然存在）。
忽略 $W_{s}$ 项（即设 $W_{s} \approx 0$ ）

我们得到最常见的标准 RNN 定义，其中 $G (s)$ 通常是 $tanh$ 函数

$s [n] r [n] = W_{r} r [n - 1] + W_{x} x [n] + θ_{s} = G (s [n])$

在此简化下，系统的稳定性完全取决于 $W_{r}$ 的特征值 $μ_{i}$ 。在“小信号”区域（ $∥ s [n] ∥ ≪ 1$ ），稳定性的充要条件是 $0 < μ_{i} < 1$ 。

Diagonal SSM 系统

连续 Diagonal SSM 系统：一般考虑如下 Diagonal SSM LTI 系统

$\overset{x}{˙} (t) y (t) = A x (t) + B u (t), x (0) = x_{0} = C x (t)$

其中 $u (t) \in R$ ， $x (t) \in C^{N}$ ， $y (t) \in R$ （一般使用取实部操作）， $A \in C^{N \times N}$ ， $B \in C^{N \times 1}$ ， $C \in C^{1 \times N}$ 。

ZOH 离散化公式：连续矩阵转化为离散矩阵：

$\overset{ˉ}{A} = exp (A Δ) = diag (e^{A_{1} Δ}, \dots, e^{A_{N} Δ}) \in C^{N \times N}$ $\overset{ˉ}{B} = (\overset{ˉ}{A} - I) A^{- 1} B \in C^{N \times 1}$

其中 $Δ \in R^{+}$ 是可学习的参数， $C$ 不参与离散。

离散递归方程 (RNN Mode): $x_{k} = \overset{ˉ}{A} x_{k - 1} + \overset{ˉ}{B} u_{k}, y_{k} = Re (C x_{k}) + D u_{k}$

能控性与能观性分析

Kalman 结论保证如果连续系统是能控/能观的，那么离散化系统也是能控的，除非采样周期 $Δ$ 满足特定的病态条件（未调研）。下面默认使用连续系统矩阵。

能控性分析

能控性矩阵：能控性矩阵为：

$C = [B A B A^{2} B \dots A^{n - 1} B]$

能控性分析：Diagonal SSM 能控当且仅当 $A$ 的特征值互不相同且 $B$ 所有元素非零。

证明：设 $A = diag (λ_{1}, λ_{2}, \dots, λ_{n})$ ，且 $B = [b_{1}, b_{2}, \dots, b_{n}]^{T}$ 。计算能控性矩阵 $C$ 的各项：

第 1 列 ( $B$ ): $[b_{1}, b_{2}, \dots, b_{n}]^{T}$
第 2 列 ( $A B$ ): $[λ_{1} b_{1}, λ_{2} b_{2}, \dots, λ_{n} b_{n}]^{T}$
第 $k$ 列 ( $A^{k - 1} B$ ): $[λ_{1}^{k - 1} b_{1}, λ_{2}^{k - 1} b_{2}, \dots, λ_{n}^{k - 1} b_{n}]^{T}$

此时，能控性矩阵 $C$ 可以分解为两个矩阵的乘积：

$C = 对角阵 Σ_{B} b_{1} 0 ⋮ 0 0 b_{2} ⋮ 0 \dots \dots ⋱ \dots 00 ⋮ b_{n} \cdot 范德蒙德矩阵 (Vandermonde Matrix) V 11 ⋮ 1 λ_{1} λ_{2} ⋮ λ_{n} λ_{1}^{2} λ_{2}^{2} ⋮ λ_{n}^{2} \dots \dots ⋱ \dots λ_{1}^{n - 1} λ_{2}^{n - 1} ⋮ λ_{n}^{n - 1}$

即 $C = diag (B) \cdot V$ 。为了使 $C$ 满秩 ( $det (C) \neq = 0$ )，必须满足两个条件：

输入必须能直接影响每一个状态分量： $det (diag (B)) \neq = 0$ ，即 $b_{i} \neq = 0, \forall i$ 。
范德蒙德矩阵满秩： $det (V) \neq = 0$ ，而 $det (V) = \prod_{1 \leq i < j \leq n} (λ_{j} - λ_{i})$ 。这要求 $A$ 的所有特征值 $λ_{i}$ 必须互不相同 (Distinct Eigenvalues)。

能观性分析

能观性矩阵：

$O = C C A ⋮ C A^{n - 1}$

能观性分析：Diagonal SSM 能观当且仅当 $A$ 所有特征值不相同， $C$ 所有元素非零。

证明：与能控性类似。

背景与预备知识

连续系统与卷积格式

系统方程：模型由以下线性微分方程定义

$\overset{x}{˙} (t) = A x (t) + B u (t), y (t) = C x (t)$

$A \in C^{N \times N}$ 为系统矩阵（State Matrix）， $B \in R^{C \times 1}$ 为输入矩阵， $C \in C^{1 \times N}$ 为输出矩阵。

卷积形式 (Convolution View)：若 $x (0) = 0 \in C^{N}$ ，则上述系统可写为

$K (t) = C e^{A t} B, y (t) = (K * u) (t)$

其中卷积定义为 $(f * g) (t) = \int_{- \infty}^{\infty} f (τ) g (t - τ) d τ$ 。

证明：根据常数变异法可解出方程的解

$x (t) = \int_{0}^{t} e^{A (t - τ)} B u (τ) d τ \Rightarrow y (t) = \int_{0}^{t} C e^{A (t - τ)} B u (τ) d τ .$

令 $K (t) = C e^{A t} B$ ，则得到

$y (t) = \int_{0}^{t} K (t - τ) u (τ) d τ \Rightarrow y (t) = (K * u) (t) .$

在对角 SSM 的情形下， $A$ 为对角矩阵。此时符号 $A_{n}, B_{n}, C_{n}$ 表示对应参数的元素分量。

Structured State Spaces Model (S4)

HiPPO 矩阵：为了有效地捕捉长期依赖， $A$ 矩阵被初始化为特定的 HiPPO-LegS 矩阵。其元素定义为：

$A_{nk} = ⎩ ⎨ ⎧ - (2 n + 1)^{1/2} (2 k + 1)^{1/2} - (n + 1) 0 if n > k if n = k if n < k$

DPLR 结构：为了加速矩阵指数 $e^{A t}$ 的计算，S4 将矩阵 $A$ 约束为对角阵加低秩矩阵 (Diagonal Plus Low-Rank, DPLR) 结构：

$A = A^{(N)} - P P^{T}$

低秩项 $P \in R^{N \times 1}$ ：其元素定义为 $P_{n} = (n + 1/2)^{1/2}$ 。
正规矩阵 $A^{(N)} \in R^{N \times N}$ ：这是一个斜对称矩阵（Skew-symmetric）加上对角阵。其元素满足：

$A_{nk}^{(N)} = ⎩ ⎨ ⎧ - (n + 1/2)^{1/2} (k + 1/2)^{1/2} - 1/2 (n + 1/2)^{1/2} (k + 1/2)^{1/2} if n > k if n = k if n < k$

Diagonal State Spaces (DSS)

核心结论：近期研究（由 Gupta 等人提出）发现，S4 中的低秩项部分（即 $P P^{T}$ ）在某些情况下可以省略，从而进一步简化模型。DSS 证明了通过对 S4 矩阵进行对角化处理，依然能够保持捕捉长程记忆的能力，同时极大地简化了代码实现和计算流程。

符号	全称	说明
$A$	HiPPO-LegS	原始的 HiPPO 矩阵（下三角矩阵），在 S4 中使用
$A^{(N)}$	HiPPO-LegS-N	矩阵 $A$ 的正规部分（Normal part），具有斜对称性。
$A^{(D)}$	HiPPO-LegS-D	矩阵 $A^{(N)}$ 的对角化形式，即其特征值组成的对角阵。在 DSS 中使用。

S4D 模型

连续系统的离散：给定步长 $Δ t$ ，连续参数 $(A, B)$ 可通过以下两种常用方法转换为离散参数 $(\overline{A}, \overline{B})$ ：

双线性变换 (Bilinear):

$\overline{A} = (I - Δ t /2 A)^{- 1} (I + Δ t /2 A), \overline{B} = (I - Δ t /2 A)^{- 1} \cdot Δ t B$

零阶保持 (ZOH):

$\overline{A} = exp (Δ t A), \overline{B} = (Δ t A)^{- 1} (exp (Δ t A) - I) \cdot Δ t B$

离散卷积核：离散时间 SSM 的输出为 $y = u * \overline{K}$ ，其中离散卷积核 $\overline{K}$ 具有 Krylov 子空间结构：

$\overline{K} = (C \overline{B}, C \overline{A} \overline{B}, \dots, C \overline{A}^{L - 1} \overline{B})$

卷积核计算：

A 参数化：为保证稳定性（防止 $t \to \infty$ 时核爆炸），通常强制 $A$ 的实部为负。 $A = - exp (A_{R e}) + i \cdot A_{I m}$ （或使用 ReLU 等激活函数）。

方法	结构 (Structure)	核计算 (Kernel Comp.)	离散化 (Discretization)	约束 $ℜ (A)$	可训练 $B$	初始化 $A$
S4	DPLR	Cauchy	Bilinear	$exp$	Yes	HiPPO
DSS	Diagonal	Softmax	ZOH	None (id)	No	HiPPO-D
S4D	Diagonal	Vandermonde	Any (Bilinear/ZOH)	$exp$ / ReLU	Optional	Various

对角状态矩阵的初始化

对角系数矩阵的稠密性

命题：任意状态空间模型 $(A, B, C)$ 等价于 $(V^{- 1} A V, V^{- 1} B, C V)$ 模型，其中 $V \in C^{N \times N}$ 为可逆矩阵。

证明：考虑如下线性系统

$\overset{x}{˙} (t) = A x (t) + B u (t), y (t) = C x (t) .$

令 $x = V ℓ (t)$ ，则上述系统等价于 $V \dot{ℓ} (t) = A V ℓ (t) + B u (t)$ 以及 $y (t) = C V ℓ (t)$ ，因此我们得到新系统

$\dot{ℓ} (t) = V^{- 1} A V ℓ (t) + V^{- 1} B u (t), y (t) = C V ℓ (t) .$

命题：所有 $C^{N \times N}$ 中的可对角化矩阵集合 $D \subset C^{N \times N}$ 在 $C^{N \times N}$ 中稠密。

不可对角化矩阵之所以“稀有”，是因为它要求特征方程 $det (λ I - A) = 0$ 必须有重根，并且这些重根对应的几何重数小于代数重数。
上述命题证明了纯对角矩阵在数学上可以表示任何线性系统，但这并不意味着能通过梯度下降轻易地“练”出这个效果。事实上 Albert Gu 等人证明了如果使用随机初始化，稠密实矩阵和对角复矩阵的表达能力都较差。
数值稳定性至关重要。具有相同频谱（即等价于相同对角阵）的两个初始化可能有截然不同的性能表现。

S4D 格式推导

S4D-LegS：令 $A = A^{(N)} - P P^{⊤}$ 为 HiPPO-LegS 矩阵。当状态维度 $N \to \infty$ 时，由正规部分 $A^{(N)}$ (即 S4D-LegS) 生成的 kernel bases $K_{A^{(N)}, B /2} (t)$ 收敛于原始 S4 的 kernel bases $K_{A, B} (t)$ 。

alt text

S4D-Inv：为了进一步简化 S4D-LegS，我们分析 $A^{(D)}$ 的结构。实部恒定为 $Re (A) = - \frac{1}{2}$ ，虚部遵循逆缩放律。猜测当 $N \to \infty$ 时，虚部 $Im (A)_{n} \approx Θ (n^{- 1})$ 。

$A_{n} = - \frac{1}{2} + i \frac{N}{π} (\frac{N}{2 n + 1} - 1)$

S4D-Lin：更简单的初始化 S4D-Lin 近似于傅里叶级数频率（对应 S4-FouT 变体）。其基函数 $e^{t A} B$ 表现为阻尼傅里叶基函数。

$A_{n} = - \frac{1}{2} + iπn .$

方法	实部 $Re (A)$	虚部 $Im (A)$ 分布	数学解释
S4D-LegS	$- \frac{1}{2}$	复杂 (来自 HiPPO 对角化)	渐近等价于 S4-LegS
S4D-Inv	$- \frac{1}{2}$	$\propto n^{- 1}$ (逆律)	S4D-LegS 的闭式近似
S4D-Lin	$- \frac{1}{2}$	$\propto n$ (线性)	阻尼傅里叶级数 (S4-FouT)

卷积核格式推导

递推格式展开：考虑如下离散后的 S4D 系统，其中 $t \in [0, L]$ ，

$h_{t} y_{t} = \overset{ˉ}{A} h_{t - 1} + \overset{ˉ}{B} x_{t} = C h_{t}$

其中 $x_{t} \in R$ ， $h_{t} \in C^{N}$ ， $y_{t} \in R^{1}$ ， $\overset{ˉ}{B} \in C^{N \times 1}$ ， $\overset{ˉ}{A} = diag (\overset{ˉ}{A}_{1}, \dots, \overset{ˉ}{A}_{N}) \in C^{N \times N}$ ， $C \in C^{1 \times N}$ 。我们有

$h_{t} = τ = 0 \sum t \overset{ˉ}{A}^{t - τ} \overset{ˉ}{B} x_{τ}, y_{t} = τ = 0 \sum t \overset{ˉ}{C} \overset{ˉ}{A}^{t - τ} \overset{ˉ}{B} x_{τ} .$

卷积核定义：卷积核可以定义为如下

$K_{t} = C \overset{ˉ}{A}^{t} \overset{ˉ}{B} .$

由于 $\overset{ˉ}{A}$ 是对角矩阵， $\overset{ˉ}{B}$ 是向量， $C$ 是向量，因此 $K_{t}$ 是一个数，可以写为

$K_{t} = n = 1 \sum N C_{n} \overset{ˉ}{A}_{n}^{t} \overset{ˉ}{B}_{n} .$

从而

$y = x * K \Rightarrow y_{t} = (x * K)_{t} = τ = 0 \sum t x_{τ} \cdot K_{t - τ}$

其中 $K = [K_{0}, K_{1}, \dots, K_{L - 1}] \in C^{L}$ 满足如上式子。

Pytorch 实现：先根据 A, B, C, L 计算出 Kernel K (L,)。然后再转换到频域计算。

import torch
import torch.fft

def compute_ssm_kernel(A, B, C, L):
    """
    步骤 1: 生成卷积核 K
    对应公式: K_t = sum_{n=1}^N C_n * (A_n)^t * B_n
    
    参数:
        A: (N,) 复数对角矩阵的对角元素
        B: (N,) 复数输入投影
        C: (N,) 复数输出投影
        L: 序列长度
    返回:
        K: (L,) 复数卷积核
    """
    # 1. 构造时间步向量 t = [0, 1, ..., L-1]
    # shape: (L)
    t = torch.arange(L, device=A.device)
    
    # 2. 计算 A 的幂次 (A_n)^t
    # 利用广播机制: (N, 1) ** (L) -> (N, L)
    # 这一步计算了所有状态 n 在所有时刻 t 的衰减项
    A_powers = torch.pow(A.unsqueeze(-1), t)
    
    # 3. 计算各项乘积 C_n * (A_n)^t * B_n
    # term shape: (N, L)
    term = (C * B).unsqueeze(-1) * A_powers
    
    # 4. 对状态维度 N 求和 (sum_{n=1}^N)
    # 这一步将 N 个独立状态的响应混合成一个系统的脉冲响应
    K = torch.sum(term, dim=0) 
    
    return K # shape: (L,)

def fft_convolution(x, K):
    """
    步骤 2: FFT 卷积加速
    对应公式: y = x * K
    
    参数:
        x: (Batch, L) 实数输入序列
        K: (L,) 复数卷积核
    返回:
        y: (Batch, L) 实数输出序列
    """
    L = x.shape[-1]
    
    # 1. 确定 FFT 长度 (通常设为 2*L 以避免循环卷积混叠)
    fft_len = 2 * L
    
    # 2. 输入 x (实数) -> 频域
    # 使用 rfft 因为 x 是实数，只计算一半频谱
    x_f = torch.fft.rfft(x, n=fft_len)
    
    # 3. 卷积核 K (复数) -> 频域
    # 使用 fft 因为 K 本身是复数
    k_f = torch.fft.fft(K, n=fft_len)
    
    # 4. 对齐频谱
    # rfft 得到的频谱长度为 fft_len//2 + 1
    # 我们需要截取 k_f 对应的前半部分正频率
    k_f = k_f[..., :x_f.shape[-1]]
    
    # 5. 频域乘法 (对应时域卷积)
    y_f = x_f * k_f
    
    # 6. 逆变换回时域 + 截断
    y = torch.fft.irfft(y_f, n=fft_len)
    y = y[..., :L] # 去掉补零产生的部分
    
    return y

原论文：Arxiv

2025.12.10 完成笔记

2025.12.11 补充 SSM 经典模型的能观性和能控性，具体见 Diagonal SSM

预备知识

离散线性时不变系统 (Discrete LTI Systems)

定义(离散 LTI 系统)：设 $G$ 为一个离散线性时不变 (Linear Time-Invariant, LTI) 系统，其状态方程描述如下：

$h (k + 1) y (k) = A h (k) + B x (k), h (0) = h_{0} = C h (k) + D x (k)$

$h \in R^{n}$ 为状态向量 (state)；
$x \in R^{p}$ 为输入向量 (input)；
$y \in R^{q}$ 为输出向量 (output)；
系统矩阵维度为 $A \in R^{n \times n}, B \in R^{n \times p}, C \in R^{q \times n}, D \in R^{q \times p}$ 。

假设(稳定性 Stability)：系统是稳定的，即矩阵 $A$ 的所有特征值模长均小于 1：

$∣ λ_{i} (A) ∣ < 1, \forall i$

假设(可控性 Controllability)：系统对 $(A, B)$ 是可控的。即存在有限时间，使得状态 $h$ 可以从任意初始状态被控制（驱动）到任意最终状态。可控性矩阵 $C$ 必须满秩：

$C = [B A B A^{2} B \dots A^{n - 1} B], rank (C) = n$

如果系统不能控，则状态空间中存在某些维度（子空间），无论输入 $x (k)$ 是什么，都无法影响这些维度的状态。

假设(可观性 Observability)：系统对 $(A, C)$ 是可观的。即通过观测有限时间内的输出 $y$ 和输入 $x$ ，足以确定初始状态 $h_{0}$ 。能观性矩阵 $O$ 必须满秩：

$O = C C A C A^{2} ⋮ C A^{n - 1}, rank (O) = n$

如果系统不可观，意味着状态空间中存在某些维度的变化，根本不会反映在输出 $y (k)$ 中。

离散 Lyapunov 方程理论 (Discrete Lyapunov Equation)

Lyapunov 方程起源：设系统的输入 $x (k)$ 不是确定的控制量，而是零均值的高斯白噪声 $w (k)$ ，其协方差为 $M$ （即 $E [w w^{T}] = M$ ）。

$h (k + 1) = A h (k) + w (k)$

我们想知道当时间趋于无穷时，系统状态 $h (k)$ 的分布是什么样的？定义状态的协方差矩阵为 $X (k) = E [h (k) h (k)^{T}]$ 。我们可以推导 $X (k)$ 随时间的变化：

$X (k + 1) = E [h (k + 1) h (k + 1)^{T}] = E [(A h (k) + w (k)) (A h (k) + w (k))^{T}] = E [A h (k) h (k)^{T} A^{T} + A h (k) w (k)^{T} + w (k) h (k)^{T} A^{T} + w (k) w (k)^{T}]$

由于 $h (k)$ 是过去的状态，与当前的噪声 $w (k)$ 不相关（独立），中间两项期望为 0。于是得到： $X (k + 1) = A X (k) E [h (k) h (k)^{T}] A^{T} + M E [w (k) w (k)^{T}]$

$X (k + 1) = A X (k) A^{T} + M$

如果系统是稳定的（ $A$ 使得能量衰减），且噪声源源不断地输入（ $M$ ），那么最终状态的“云团”大小（协方差）会达到一个动态平衡。此时 $X (k + 1) = X (k) = X$ 。

定义(离散 Lyapunov 方程)：给定矩阵 $A \in R^{n \times n}$ 和对称矩阵 $M \in R^{n \times n}$ ，寻找对称矩阵 $X \in R^{n \times n}$ 满足：

$A X A^{T} - X + M = 0$

或者写作等价形式 $X = A X A^{T} + M$ 。

Lyapunov 方程有两种理解：

输入噪声：方程解描述了给定持续不断的随机误差扰动 $M$ ，系统最终会在多大的范围（方差）内波动。

输入控制：方程解描述了给定输入控制 $M$ ，对系统造成的能量大小/状态变化。

推导(级数解的构造)：我们可以通过迭代法直观地构造解。假设 $X$ 满足 $X = A X A^{T} + M$ ，我们将 $X$ 自身反复代入方程右边：

$X = M + A X A^{T} = M + A (M + A X A^{T}) A^{T} = M + A M A^{T} + A^{2} X (A^{T})^{2} = M + A M A^{T} + A^{2} (M + A X A^{T}) (A^{T})^{2} = M + A M A^{T} + A^{2} M (A^{T})^{2} + A^{3} X (A^{T})^{3} ⋮ = k = 0 \sum N - 1 A^{k} M (A^{T})^{k} + A^{N} X (A^{T})^{N}$

当 $N \to \infty$ 时，如果余项 $A^{N} X (A^{T})^{N} \to 0$ ，则我们得到级数解：

$X = k = 0 \sum \infty A^{k} M (A^{T})^{k}$

定理(存在性与唯一性)：若矩阵 $A$ 是稳定的（即谱半径 $ρ (A) < 1$ ），则对于任意对称矩阵 $M$ ：

级数 $\sum_{k = 0}^{\infty} A^{k} M (A^{T})^{k}$ 绝对收敛，且该级数是离散 Lyapunov 方程的唯一解。
若 $M$ 是正定 (或半正定) 的，则解 $X$ 也是正定 (或半正定) 的。

这个方程本质上是在计算一个线性系统在无限时间内的“能量累积”。只有当系统是稳定的（能量会耗散，而不是无限增长），这个累积和（级数）才是一个有限值。

可控性与可观性格拉姆矩阵 (Gramians)

Gramians 提供了比秩判据更丰富的信息：它们不仅告诉我们状态是否可控/可观，还量化了控制或观测的难易程度（能量代价）。

定义(离散可控性格拉姆矩阵)：假设上述系统是稳定且可控的，则存在唯一的对称正定矩阵 $P \in R^{n \times n}$ 满足离散 Lyapunov 方程：

$A P A^{T} - P + B B^{T} = 0$

$P = i = 0 \sum \infty A^{i} B B^{T} (A^{T})^{i}$

物理意义：我们要寻找一个能量最小的输入序列 $x (0), x (1), \dots, x (N)$ ，把系统从零状态 $h (0) = 0$ 驱动到目标状态 $h_{target}$ 。根据系统方程 $h (k + 1) = A h (k) + B x (k)$ ，经过 $N$ 步后，最终状态 $h (N)$ 可以写成输入的线性组合：

$h (N) = i = 0 \sum N - 1 A^{N - 1 - i} B x (i)$

$h_{target} = C_{N} [B A B \dots A^{N - 1} B] x x (N - 1) ⋮ x (0)$

即 $h_{target} = C_{N} x$ 。我们需要最小化输入能量 $E = ∥ x ∥^{2} = x^{T} x$ ，同时满足约束 $h_{target} = C_{N} x$ 。这是一个标准的最小范数解问题（求伪逆）。根据拉格朗日乘子法，最优解 $x_{o pt}$ 为：

$x_{o pt} = C_{N}^{T} (C_{N} C_{N}^{T})^{- 1} h_{target}$

现在，我们计算这个最优输入的能量 $E_{m i n}$ ：

$E_{m i n} = x_{o pt}^{T} x_{o pt} = [h_{target}^{T} (C_{N} C_{N}^{T})^{- T} C_{N}] [C_{N}^{T} (C_{N} C_{N}^{T})^{- 1} h_{target}] = h_{target}^{T} (C_{N} C_{N}^{T})^{- 1} I (C_{N} C_{N}^{T}) (C_{N} C_{N}^{T})^{- 1} h_{target} = h_{target}^{T} (C_{N} C_{N}^{T})^{- 1} h_{target}$

当 $N \to \infty$ 时，矩阵 $C_{N} C_{N}^{T} = \sum_{i = 0}^{\infty} A^{i} B B^{T} (A^{T})^{i}$ 正是我们的可控性 Gramian $P$ 。所以：

$E_{m i n} = h_{target}^{T} P^{- 1} h_{target}$

物理意义： $P$ 衡量了到达某个状态所需的最小输入能量，准确来说是 $E_{m i n} = h_{target}^{T} P^{- 1} h_{target}$ ，因此 $P$ 的特征值越大，所需的能量越小。

定义(离散可观性格拉姆矩阵)：假设上述系统是稳定且可观的，则存在唯一的对称正定矩阵 $Q \in R^{n \times n}$ 满足离散 Lyapunov 方程：

$A^{T} Q A - Q + C^{T} C = 0$

其显式解形式为：

$Q = i = 0 \sum \infty (A^{T})^{i} C^{T} C A^{i}$

物理意义： $Q$ 衡量了 $h_{0}$ 能产生多少输出能量， $J = h_{0}^{T} Q h_{0}$ 。

平衡实现 (Balanced Realizations)

定义(状态空间实现)：离散时间线性系统 $G$ 由其输入-输出映射完全刻画：

$G : {x (k)}_{k \geq 0} \mapsto {y (k)}_{k \geq 0}$

若四元组 $(A, B, C, D)$ 及状态 $h (k)$ 能够实现上述映射，则称其为 $G$ 的一个实现 (Realization)。

注：实现不唯一。若 $(A, B, C, D)$ 是一个实现，则对于任意可逆矩阵 $T \in R^{n \times n}$ ， $(T^{- 1} A T, T^{- 1} B, CT, D)$ 也是同一个系统的实现。

定义(最小实现 Mimimal)：若一个实现既是可控的又是可观的，则称其为最小实现。其状态维度 $n$ 称为实现的阶数 (Order)。

定义(平衡实现 Balanced)：若一个实现的格拉姆矩阵满足 $P = Q$ ，则称该实现是平衡的。此时记公共矩阵为 $W$ ，称为平衡系统的格拉姆矩阵。

Balanced realization 的意义是给系统找一把“公平的尺子”，让所有状态在“输入端”和“输出端”的重要性被同等看待。即对于某个状态 $h$ ，对于输入端 $P$ 和输出端 $Q$ 是同等重要的。

定理(Antoulas, 2005)：任意稳定、最小的离散 LTI 系统都存在一个平衡实现，其可控性和可观性格拉姆矩阵相等且为对角阵：

$W = diag (σ) = diag (σ_{1}, \dots, σ_{n})$

其中 $σ_{1} \geq \dots \geq σ_{n} > 0$ 称为 Hankel 奇异值 (Hankel Singular Values, HSV)。

计算方法：HSV 也可以通过非平衡实现的格拉姆矩阵计算得出：

$σ = sort_{↓} (spec (PQ))$

Hankel 奇异值量化了每个状态的联合可控性和可观性。大的 $σ_{i}$ 对应既容易被控制又容易被观测的状态（即对系统动力学贡献大的状态）。

SRBT 算法：找到变换矩阵 $T$ 同时对角化 $P$ 和 $Q$ 。核心思想为利用 $P$ 和 $Q$ 的“平方根”（Cholesky 因子）以及 SVD 分解来构造 $T$ 。

Cholesky 分解 (求平方根)：由于 $P, Q$ 是对称正定矩阵，对其进行 Cholesky 分解：

$P = L_{p} L_{p}^{T}, Q = L_{q} L_{q}^{T}$

其中 $L_{p}, L_{q}$ 为下三角矩阵。

奇异值分解 (SVD)：计算交叉乘积矩阵 $L_{q}^{T} L_{p}$ 并进行 SVD 分解

$L_{q}^{T} L_{p} = U Σ V^{T}$

其中 $Σ = diag (σ_{1}, \dots, σ_{n})$ 即为包含 Hankel 奇异值的对角阵， $U, V$ 为正交矩阵。

构造变换矩阵：平衡变换矩阵 $T$ 及其逆矩阵 $T^{- 1}$ 可由下式给出：

$T = L_{p} V Σ^{- 1/2}$

$T^{- 1} = Σ^{- 1/2} U^{T} L_{q}^{T}$

直观理解： $T$ 融合了可控性信息 ( $L_{p}$ ) 和可观性信息 ( $U, Σ$ )，将系统投影到一个两者“势均力敌”的坐标系中。

平衡截断 (Balanced Truncation)

平衡截断是一种模型降阶 (Model Order Reduction, MOR) 方法，利用 Hankel 奇异值的大小对状态进行取舍。

定义(平衡截断步骤)：考虑一个稳定、最小的平衡实现 $(A, B, C, D)$ ，其格拉姆矩阵 $W = diag (Σ_{1}, Σ_{2})$ ，其中 $Σ_{1}$ 包含较大的 $r$ 个奇异值， $Σ_{2}$ 包含剩余的 $n - r$ 个较小奇异值。将系统矩阵分块：

$A = [A_{1, 1} A_{2, 1} A_{1, 2} A_{2, 2}], B = [B_{1} B_{2}], C = [C_{1} C_{2}]$

其中 $A_{1, 1} \in R^{r \times r}, B_{1} \in R^{r \times p}, C_{1} \in R^{q \times r}$ 。

性质(降阶系统)：由 $(A_{1, 1}, B_{1}, C_{1}, D)$ 定义的降阶系统 $\hat{G}$ 是稳定的，且满足以下误差界：

$∣∣ G - \hat{G} ∣ ∣_{\infty} \leq 2 i = r + 1 \sum n σ_{i}$

这表明截断误差由被丢弃的 Hankel 奇异值之和控制。

Hermitian 矩阵的谱稳定性 (Spectral Stability)

在训练状态空间模型 (SSMs) 时，梯度下降会逐步修改状态矩阵。了解这种扰动如何影响 Hankel 奇异值至关重要。

定理(Weyl, 1912)：设 $W$ 和 $W^{'}$ 为 $n$ 阶 Hermitian 矩阵（实对称矩阵），令 $δ W = W^{'} - W$ 。设 $λ_{i} (W)$ 表示 $W$ 的第 $i$ 大特征值。则 $λ_{i} (W)$ 在 Hermitian 矩阵空间上关于算子范数是 Lipschitz 连续的：

$∣ λ_{i} (W^{'}) - λ_{i} (W) ∣ \leq i = 1, \dots, n max (∣ λ_{i} (δ W) ∣) = max (∣ λ_{1} (δ W) ∣, ∣ λ_{n} (δ W) ∣)$

物理意义： $W$ 的每个特征值的波动幅度不会超过扰动矩阵 $δ W$ 的最大绝对特征值。这为训练过程中的谱变化提供了理论上界

CompreSSM 算法

CompreSSM 算法的核心思想是在训练过程中动态地对 SSM 层的线性系统进行平衡截断。该算法针对每一个 SSM 块（Block）独立进行。

alt text

算法输入：模型权重中的离散线性系统矩阵 $A, B, C$ 。当前系统阶数（秩） $n$ 。能量阈值 $τ \in [0, 1]$ （预设超参数）。

Reduction Analysis 部分：求出系统中哪些状态是重要的

提取矩阵：从模型权重中提取 $A, B, C$ 。
求解 Gramians：解离散 Lyapunov 方程获得 $P$ 和 $Q$ 。 $P$ 显示出哪些状态容易被输入激发（存能量）， $Q$ 显示出哪些状态容易影响输出（放能量）。当 $A$ 是对角矩阵时， $P, Q$ 的无穷级数可以用等比数列求和计算。
计算 HSV：计算 Hankel 奇异值 $σ$ 。 $σ_{i}$ 是第 $i$ 个状态的【综合重要性得分】。

$σ = sort_{↓} (spec (PQ))$

确定截断阶数 $r$ ：找到满足总能量比例 $τ$ 的最小阶数 $r$ ：

$r = min {k \in {1, \dots, n} : i = 1 \sum k σ_{i} \geq τ i = 1 \sum n σ_{i}}$

Balanced Truncation 部分：

判断是否截断：若 $r < n$ （即存在冗余），计算平衡变换矩阵 $T$ 。否则，保持系统不变。
执行平衡变换：将系统转换到对角平衡实现：

$(A_{b}, B_{b}, C_{b}) = (T^{- 1} A T, T^{- 1} B, CT)$

执行截断：保留前 $r$ 个维度（使用张量切片表示）：

$(A_{r}, B_{r}, C_{r}) = (A_{b} [: r, : r], B_{b} [: r, :], C_{b} [:, : r])$

System Replacement 部分：将模型中的原始矩阵替换为截断后的矩阵：

$(A, B, C) \leftarrow (A_{r}, B_{r}, C_{r})$

训练中的动态降阶 (In-Training Reduction)

CompreSSM 主张在训练的早期（如学习率预热阶段）进行降阶。这依赖于以下理论和实验观察，证明了训练动力学有利于早期截断。

Hankel 奇异值的连续性

在梯度下降过程中，模型参数 $A, B, C$ 发生微小变化 $(δ A, δ B, δ C)$ ，导致系统变为新的动力系统 $(A^{'}, B^{'}, C^{'})$ 。我们需要保证这种微小变化不会导致 Hankel 奇异值（即状态的重要性）发生剧烈跳变。

定义：令 $H = P^{1/2} Q P^{1/2}$ ，其特征值即为 Hankel 奇异值。 $H$ 对于系统扰动是连续的，记 $H^{'} = H + δH$ 。

引理 (训练更新下 HSV 的连续性)：根据 Weyl 定理，在梯度步之间，每个 Hankel 奇异值的变化幅度有上界：

$∣ σ_{i}^{'} - σ_{i} ∣ \leq max (∣ λ_{m a x} (δH) ∣, ∣ λ_{m i n} (δH) ∣) = ∥ δH ∥_{2}$

这意味着状态的重要性评分 $σ$ 是关于模型权重的连续函数，不会突变。

相对次序的稳定性 (Stability of Relative Ordering)

仅有连续性是不够的。如果 HSV 的相对大小频繁交叉（即一个不重要的状态突然变得非常重要），那么早期的截断就是危险的。

alt text

实验观察：

图1 次序保持：实验表明 Hankel 奇异值的相对次序在训练初期迅速稳定。大奇异值保持较大，小奇异值保持较小。
图2 连续性：每步的 $δH$ 最大为 $O (1)$ 的量级，与 Singular Value 本身 $O (10 - 100)$ 的量级比起来可以算是连续的。
图3 次序保持：对每个维度进行追踪，次序保持稳定。
图4 能量贡献：底部 $r$ 个（被截断的）维度的累积能量贡献在训练过程中始终维持在低位，很少获得实质性的能量增长。

结论：在训练早期被识别为“可忽略”的维度，通常在整个训练过程中都保持可忽略状态。因此，早期截断决策与最终的重要性排名很少冲突，这使得 In-Training Reduction 既有效又鲁棒。

实验结果

alt text

CompreSSM 模型：从大模型开始（如 CIFAR10 初始维度 384），训练中途自动变小。
Baseline 模型：直接从一开始就训练小模型。

alt text

Keyboard shortcuts

State Space Models