CompreSSM - State Space Models

原论文：Arxiv

2025.12.10 完成笔记

2025.12.11 补充 SSM 经典模型的能观性和能控性，具体见 Diagonal SSM

预备知识

离散线性时不变系统 (Discrete LTI Systems)

定义(离散 LTI 系统)：设 $G$ 为一个离散线性时不变 (Linear Time-Invariant, LTI) 系统，其状态方程描述如下：

$h (k + 1) y (k) = A h (k) + B x (k), h (0) = h_{0} = C h (k) + D x (k)$

$h \in R^{n}$ 为状态向量 (state)；
$x \in R^{p}$ 为输入向量 (input)；
$y \in R^{q}$ 为输出向量 (output)；
系统矩阵维度为 $A \in R^{n \times n}, B \in R^{n \times p}, C \in R^{q \times n}, D \in R^{q \times p}$ 。

假设(稳定性 Stability)：系统是稳定的，即矩阵 $A$ 的所有特征值模长均小于 1：

$∣ λ_{i} (A) ∣ < 1, \forall i$

假设(可控性 Controllability)：系统对 $(A, B)$ 是可控的。即存在有限时间，使得状态 $h$ 可以从任意初始状态被控制（驱动）到任意最终状态。可控性矩阵 $C$ 必须满秩：

$C = [B A B A^{2} B \dots A^{n - 1} B], rank (C) = n$

如果系统不能控，则状态空间中存在某些维度（子空间），无论输入 $x (k)$ 是什么，都无法影响这些维度的状态。

假设(可观性 Observability)：系统对 $(A, C)$ 是可观的。即通过观测有限时间内的输出 $y$ 和输入 $x$ ，足以确定初始状态 $h_{0}$ 。能观性矩阵 $O$ 必须满秩：

$O = C C A C A^{2} ⋮ C A^{n - 1}, rank (O) = n$

如果系统不可观，意味着状态空间中存在某些维度的变化，根本不会反映在输出 $y (k)$ 中。

离散 Lyapunov 方程理论 (Discrete Lyapunov Equation)

Lyapunov 方程起源：设系统的输入 $x (k)$ 不是确定的控制量，而是零均值的高斯白噪声 $w (k)$ ，其协方差为 $M$ （即 $E [w w^{T}] = M$ ）。

$h (k + 1) = A h (k) + w (k)$

我们想知道当时间趋于无穷时，系统状态 $h (k)$ 的分布是什么样的？定义状态的协方差矩阵为 $X (k) = E [h (k) h (k)^{T}]$ 。我们可以推导 $X (k)$ 随时间的变化：

$X (k + 1) = E [h (k + 1) h (k + 1)^{T}] = E [(A h (k) + w (k)) (A h (k) + w (k))^{T}] = E [A h (k) h (k)^{T} A^{T} + A h (k) w (k)^{T} + w (k) h (k)^{T} A^{T} + w (k) w (k)^{T}]$

由于 $h (k)$ 是过去的状态，与当前的噪声 $w (k)$ 不相关（独立），中间两项期望为 0。于是得到： $X (k + 1) = A X (k) E [h (k) h (k)^{T}] A^{T} + M E [w (k) w (k)^{T}]$

$X (k + 1) = A X (k) A^{T} + M$

如果系统是稳定的（ $A$ 使得能量衰减），且噪声源源不断地输入（ $M$ ），那么最终状态的“云团”大小（协方差）会达到一个动态平衡。此时 $X (k + 1) = X (k) = X$ 。

定义(离散 Lyapunov 方程)：给定矩阵 $A \in R^{n \times n}$ 和对称矩阵 $M \in R^{n \times n}$ ，寻找对称矩阵 $X \in R^{n \times n}$ 满足：

$A X A^{T} - X + M = 0$

或者写作等价形式 $X = A X A^{T} + M$ 。

Lyapunov 方程有两种理解：

输入噪声：方程解描述了给定持续不断的随机误差扰动 $M$ ，系统最终会在多大的范围（方差）内波动。

输入控制：方程解描述了给定输入控制 $M$ ，对系统造成的能量大小/状态变化。

推导(级数解的构造)：我们可以通过迭代法直观地构造解。假设 $X$ 满足 $X = A X A^{T} + M$ ，我们将 $X$ 自身反复代入方程右边：

$X = M + A X A^{T} = M + A (M + A X A^{T}) A^{T} = M + A M A^{T} + A^{2} X (A^{T})^{2} = M + A M A^{T} + A^{2} (M + A X A^{T}) (A^{T})^{2} = M + A M A^{T} + A^{2} M (A^{T})^{2} + A^{3} X (A^{T})^{3} ⋮ = k = 0 \sum N - 1 A^{k} M (A^{T})^{k} + A^{N} X (A^{T})^{N}$

当 $N \to \infty$ 时，如果余项 $A^{N} X (A^{T})^{N} \to 0$ ，则我们得到级数解：

$X = k = 0 \sum \infty A^{k} M (A^{T})^{k}$

定理(存在性与唯一性)：若矩阵 $A$ 是稳定的（即谱半径 $ρ (A) < 1$ ），则对于任意对称矩阵 $M$ ：

级数 $\sum_{k = 0}^{\infty} A^{k} M (A^{T})^{k}$ 绝对收敛，且该级数是离散 Lyapunov 方程的唯一解。
若 $M$ 是正定 (或半正定) 的，则解 $X$ 也是正定 (或半正定) 的。

这个方程本质上是在计算一个线性系统在无限时间内的“能量累积”。只有当系统是稳定的（能量会耗散，而不是无限增长），这个累积和（级数）才是一个有限值。

可控性与可观性格拉姆矩阵 (Gramians)

Gramians 提供了比秩判据更丰富的信息：它们不仅告诉我们状态是否可控/可观，还量化了控制或观测的难易程度（能量代价）。

定义(离散可控性格拉姆矩阵)：假设上述系统是稳定且可控的，则存在唯一的对称正定矩阵 $P \in R^{n \times n}$ 满足离散 Lyapunov 方程：

$A P A^{T} - P + B B^{T} = 0$

$P = i = 0 \sum \infty A^{i} B B^{T} (A^{T})^{i}$

物理意义：我们要寻找一个能量最小的输入序列 $x (0), x (1), \dots, x (N)$ ，把系统从零状态 $h (0) = 0$ 驱动到目标状态 $h_{target}$ 。根据系统方程 $h (k + 1) = A h (k) + B x (k)$ ，经过 $N$ 步后，最终状态 $h (N)$ 可以写成输入的线性组合：

$h (N) = i = 0 \sum N - 1 A^{N - 1 - i} B x (i)$

$h_{target} = C_{N} [B A B \dots A^{N - 1} B] x x (N - 1) ⋮ x (0)$

即 $h_{target} = C_{N} x$ 。我们需要最小化输入能量 $E = ∥ x ∥^{2} = x^{T} x$ ，同时满足约束 $h_{target} = C_{N} x$ 。这是一个标准的最小范数解问题（求伪逆）。根据拉格朗日乘子法，最优解 $x_{o pt}$ 为：

$x_{o pt} = C_{N}^{T} (C_{N} C_{N}^{T})^{- 1} h_{target}$

现在，我们计算这个最优输入的能量 $E_{m i n}$ ：

$E_{m i n} = x_{o pt}^{T} x_{o pt} = [h_{target}^{T} (C_{N} C_{N}^{T})^{- T} C_{N}] [C_{N}^{T} (C_{N} C_{N}^{T})^{- 1} h_{target}] = h_{target}^{T} (C_{N} C_{N}^{T})^{- 1} I (C_{N} C_{N}^{T}) (C_{N} C_{N}^{T})^{- 1} h_{target} = h_{target}^{T} (C_{N} C_{N}^{T})^{- 1} h_{target}$

当 $N \to \infty$ 时，矩阵 $C_{N} C_{N}^{T} = \sum_{i = 0}^{\infty} A^{i} B B^{T} (A^{T})^{i}$ 正是我们的可控性 Gramian $P$ 。所以：

$E_{m i n} = h_{target}^{T} P^{- 1} h_{target}$

物理意义： $P$ 衡量了到达某个状态所需的最小输入能量，准确来说是 $E_{m i n} = h_{target}^{T} P^{- 1} h_{target}$ ，因此 $P$ 的特征值越大，所需的能量越小。

定义(离散可观性格拉姆矩阵)：假设上述系统是稳定且可观的，则存在唯一的对称正定矩阵 $Q \in R^{n \times n}$ 满足离散 Lyapunov 方程：

$A^{T} Q A - Q + C^{T} C = 0$

其显式解形式为：

$Q = i = 0 \sum \infty (A^{T})^{i} C^{T} C A^{i}$

物理意义： $Q$ 衡量了 $h_{0}$ 能产生多少输出能量， $J = h_{0}^{T} Q h_{0}$ 。

平衡实现 (Balanced Realizations)

定义(状态空间实现)：离散时间线性系统 $G$ 由其输入-输出映射完全刻画：

$G : {x (k)}_{k \geq 0} \mapsto {y (k)}_{k \geq 0}$

若四元组 $(A, B, C, D)$ 及状态 $h (k)$ 能够实现上述映射，则称其为 $G$ 的一个实现 (Realization)。

注：实现不唯一。若 $(A, B, C, D)$ 是一个实现，则对于任意可逆矩阵 $T \in R^{n \times n}$ ， $(T^{- 1} A T, T^{- 1} B, CT, D)$ 也是同一个系统的实现。

定义(最小实现 Mimimal)：若一个实现既是可控的又是可观的，则称其为最小实现。其状态维度 $n$ 称为实现的阶数 (Order)。

定义(平衡实现 Balanced)：若一个实现的格拉姆矩阵满足 $P = Q$ ，则称该实现是平衡的。此时记公共矩阵为 $W$ ，称为平衡系统的格拉姆矩阵。

Balanced realization 的意义是给系统找一把“公平的尺子”，让所有状态在“输入端”和“输出端”的重要性被同等看待。即对于某个状态 $h$ ，对于输入端 $P$ 和输出端 $Q$ 是同等重要的。

定理(Antoulas, 2005)：任意稳定、最小的离散 LTI 系统都存在一个平衡实现，其可控性和可观性格拉姆矩阵相等且为对角阵：

$W = diag (σ) = diag (σ_{1}, \dots, σ_{n})$

其中 $σ_{1} \geq \dots \geq σ_{n} > 0$ 称为 Hankel 奇异值 (Hankel Singular Values, HSV)。

计算方法：HSV 也可以通过非平衡实现的格拉姆矩阵计算得出：

$σ = sort_{↓} (spec (PQ))$

Hankel 奇异值量化了每个状态的联合可控性和可观性。大的 $σ_{i}$ 对应既容易被控制又容易被观测的状态（即对系统动力学贡献大的状态）。

SRBT 算法：找到变换矩阵 $T$ 同时对角化 $P$ 和 $Q$ 。核心思想为利用 $P$ 和 $Q$ 的“平方根”（Cholesky 因子）以及 SVD 分解来构造 $T$ 。

Cholesky 分解 (求平方根)：由于 $P, Q$ 是对称正定矩阵，对其进行 Cholesky 分解：

$P = L_{p} L_{p}^{T}, Q = L_{q} L_{q}^{T}$

其中 $L_{p}, L_{q}$ 为下三角矩阵。

奇异值分解 (SVD)：计算交叉乘积矩阵 $L_{q}^{T} L_{p}$ 并进行 SVD 分解

$L_{q}^{T} L_{p} = U Σ V^{T}$

其中 $Σ = diag (σ_{1}, \dots, σ_{n})$ 即为包含 Hankel 奇异值的对角阵， $U, V$ 为正交矩阵。

构造变换矩阵：平衡变换矩阵 $T$ 及其逆矩阵 $T^{- 1}$ 可由下式给出：

$T = L_{p} V Σ^{- 1/2}$

$T^{- 1} = Σ^{- 1/2} U^{T} L_{q}^{T}$

直观理解： $T$ 融合了可控性信息 ( $L_{p}$ ) 和可观性信息 ( $U, Σ$ )，将系统投影到一个两者“势均力敌”的坐标系中。

平衡截断 (Balanced Truncation)

平衡截断是一种模型降阶 (Model Order Reduction, MOR) 方法，利用 Hankel 奇异值的大小对状态进行取舍。

定义(平衡截断步骤)：考虑一个稳定、最小的平衡实现 $(A, B, C, D)$ ，其格拉姆矩阵 $W = diag (Σ_{1}, Σ_{2})$ ，其中 $Σ_{1}$ 包含较大的 $r$ 个奇异值， $Σ_{2}$ 包含剩余的 $n - r$ 个较小奇异值。将系统矩阵分块：

$A = [A_{1, 1} A_{2, 1} A_{1, 2} A_{2, 2}], B = [B_{1} B_{2}], C = [C_{1} C_{2}]$

其中 $A_{1, 1} \in R^{r \times r}, B_{1} \in R^{r \times p}, C_{1} \in R^{q \times r}$ 。

性质(降阶系统)：由 $(A_{1, 1}, B_{1}, C_{1}, D)$ 定义的降阶系统 $\hat{G}$ 是稳定的，且满足以下误差界：

$∣∣ G - \hat{G} ∣ ∣_{\infty} \leq 2 i = r + 1 \sum n σ_{i}$

这表明截断误差由被丢弃的 Hankel 奇异值之和控制。

Hermitian 矩阵的谱稳定性 (Spectral Stability)

在训练状态空间模型 (SSMs) 时，梯度下降会逐步修改状态矩阵。了解这种扰动如何影响 Hankel 奇异值至关重要。

定理(Weyl, 1912)：设 $W$ 和 $W^{'}$ 为 $n$ 阶 Hermitian 矩阵（实对称矩阵），令 $δ W = W^{'} - W$ 。设 $λ_{i} (W)$ 表示 $W$ 的第 $i$ 大特征值。则 $λ_{i} (W)$ 在 Hermitian 矩阵空间上关于算子范数是 Lipschitz 连续的：

$∣ λ_{i} (W^{'}) - λ_{i} (W) ∣ \leq i = 1, \dots, n max (∣ λ_{i} (δ W) ∣) = max (∣ λ_{1} (δ W) ∣, ∣ λ_{n} (δ W) ∣)$

物理意义： $W$ 的每个特征值的波动幅度不会超过扰动矩阵 $δ W$ 的最大绝对特征值。这为训练过程中的谱变化提供了理论上界

CompreSSM 算法

CompreSSM 算法的核心思想是在训练过程中动态地对 SSM 层的线性系统进行平衡截断。该算法针对每一个 SSM 块（Block）独立进行。

alt text

算法输入：模型权重中的离散线性系统矩阵 $A, B, C$ 。当前系统阶数（秩） $n$ 。能量阈值 $τ \in [0, 1]$ （预设超参数）。

Reduction Analysis 部分：求出系统中哪些状态是重要的

提取矩阵：从模型权重中提取 $A, B, C$ 。
求解 Gramians：解离散 Lyapunov 方程获得 $P$ 和 $Q$ 。 $P$ 显示出哪些状态容易被输入激发（存能量）， $Q$ 显示出哪些状态容易影响输出（放能量）。当 $A$ 是对角矩阵时， $P, Q$ 的无穷级数可以用等比数列求和计算。
计算 HSV：计算 Hankel 奇异值 $σ$ 。 $σ_{i}$ 是第 $i$ 个状态的【综合重要性得分】。

$σ = sort_{↓} (spec (PQ))$

确定截断阶数 $r$ ：找到满足总能量比例 $τ$ 的最小阶数 $r$ ：

$r = min {k \in {1, \dots, n} : i = 1 \sum k σ_{i} \geq τ i = 1 \sum n σ_{i}}$

Balanced Truncation 部分：

判断是否截断：若 $r < n$ （即存在冗余），计算平衡变换矩阵 $T$ 。否则，保持系统不变。
执行平衡变换：将系统转换到对角平衡实现：

$(A_{b}, B_{b}, C_{b}) = (T^{- 1} A T, T^{- 1} B, CT)$

执行截断：保留前 $r$ 个维度（使用张量切片表示）：

$(A_{r}, B_{r}, C_{r}) = (A_{b} [: r, : r], B_{b} [: r, :], C_{b} [:, : r])$

System Replacement 部分：将模型中的原始矩阵替换为截断后的矩阵：

$(A, B, C) \leftarrow (A_{r}, B_{r}, C_{r})$

训练中的动态降阶 (In-Training Reduction)

CompreSSM 主张在训练的早期（如学习率预热阶段）进行降阶。这依赖于以下理论和实验观察，证明了训练动力学有利于早期截断。

Hankel 奇异值的连续性

在梯度下降过程中，模型参数 $A, B, C$ 发生微小变化 $(δ A, δ B, δ C)$ ，导致系统变为新的动力系统 $(A^{'}, B^{'}, C^{'})$ 。我们需要保证这种微小变化不会导致 Hankel 奇异值（即状态的重要性）发生剧烈跳变。

定义：令 $H = P^{1/2} Q P^{1/2}$ ，其特征值即为 Hankel 奇异值。 $H$ 对于系统扰动是连续的，记 $H^{'} = H + δH$ 。

引理 (训练更新下 HSV 的连续性)：根据 Weyl 定理，在梯度步之间，每个 Hankel 奇异值的变化幅度有上界：

$∣ σ_{i}^{'} - σ_{i} ∣ \leq max (∣ λ_{m a x} (δH) ∣, ∣ λ_{m i n} (δH) ∣) = ∥ δH ∥_{2}$

这意味着状态的重要性评分 $σ$ 是关于模型权重的连续函数，不会突变。

相对次序的稳定性 (Stability of Relative Ordering)

仅有连续性是不够的。如果 HSV 的相对大小频繁交叉（即一个不重要的状态突然变得非常重要），那么早期的截断就是危险的。

alt text

实验观察：

图1 次序保持：实验表明 Hankel 奇异值的相对次序在训练初期迅速稳定。大奇异值保持较大，小奇异值保持较小。
图2 连续性：每步的 $δH$ 最大为 $O (1)$ 的量级，与 Singular Value 本身 $O (10 - 100)$ 的量级比起来可以算是连续的。
图3 次序保持：对每个维度进行追踪，次序保持稳定。
图4 能量贡献：底部 $r$ 个（被截断的）维度的累积能量贡献在训练过程中始终维持在低位，很少获得实质性的能量增长。

结论：在训练早期被识别为“可忽略”的维度，通常在整个训练过程中都保持可忽略状态。因此，早期截断决策与最终的重要性排名很少冲突，这使得 In-Training Reduction 既有效又鲁棒。

实验结果

alt text

CompreSSM 模型：从大模型开始（如 CIFAR10 初始维度 384），训练中途自动变小。
Baseline 模型：直接从一开始就训练小模型。

alt text

Keyboard shortcuts

State Space Models