- 原论文:Arxiv
- 2025.12.10 完成笔记
- 2025.12.11 补充 SSM 经典模型的能观性和能控性,具体见 Diagonal SSM
预备知识
离散线性时不变系统 (Discrete LTI Systems)
定义(离散 LTI 系统):设 为一个离散线性时不变 (Linear Time-Invariant, LTI) 系统,其状态方程描述如下:
- 为状态向量 (state);
- 为输入向量 (input);
- 为输出向量 (output);
- 系统矩阵维度为 。
假设(稳定性 Stability):系统是稳定的,即矩阵 的所有特征值模长均小于 1:
假设(可控性 Controllability):系统对 是可控的。即存在有限时间,使得状态 可以从任意初始状态被控制(驱动)到任意最终状态。可控性矩阵 必须满秩:
如果系统不能控,则状态空间中存在某些维度(子空间),无论输入 是什么,都无法影响这些维度的状态。
假设(可观性 Observability):系统对 是可观的。即通过观测有限时间内的输出 和输入 ,足以确定初始状态 。能观性矩阵 必须满秩:
如果系统不可观,意味着状态空间中存在某些维度的变化,根本不会反映在输出 中。
离散 Lyapunov 方程理论 (Discrete Lyapunov Equation)
Lyapunov 方程起源:设系统的输入 不是确定的控制量,而是零均值的高斯白噪声 ,其协方差为 (即 )。
我们想知道当时间趋于无穷时,系统状态 的分布是什么样的?定义状态的协方差矩阵为 。我们可以推导 随时间的变化:
由于 是过去的状态,与当前的噪声 不相关(独立),中间两项期望为 0。于是得到:
如果系统是稳定的( 使得能量衰减),且噪声源源不断地输入(),那么最终状态的“云团”大小(协方差)会达到一个动态平衡。此时 。
定义(离散 Lyapunov 方程):给定矩阵 和对称矩阵 ,寻找对称矩阵 满足:
或者写作等价形式 。
Lyapunov 方程有两种理解:
- 输入噪声:方程解描述了给定持续不断的随机误差扰动 ,系统最终会在多大的范围(方差)内波动。
- 输入控制:方程解描述了给定输入控制 ,对系统造成的能量大小/状态变化。
推导(级数解的构造):我们可以通过迭代法直观地构造解。假设 满足 ,我们将 自身反复代入方程右边:
当 时,如果余项 ,则我们得到级数解:
定理(存在性与唯一性):若矩阵 是稳定的(即谱半径 ),则对于任意对称矩阵 :
- 级数 绝对收敛,且该级数是离散 Lyapunov 方程的唯一解。
- 若 是正定 (或半正定) 的,则解 也是正定 (或半正定) 的。
这个方程本质上是在计算一个线性系统在无限时间内的“能量累积”。只有当系统是稳定的(能量会耗散,而不是无限增长),这个累积和(级数)才是一个有限值。
可控性与可观性格拉姆矩阵 (Gramians)
Gramians 提供了比秩判据更丰富的信息:它们不仅告诉我们状态是否可控/可观,还量化了控制或观测的难易程度(能量代价)。
定义(离散可控性格拉姆矩阵):假设上述系统是稳定且可控的,则存在唯一的对称正定矩阵 满足离散 Lyapunov 方程:
物理意义:我们要寻找一个能量最小的输入序列 ,把系统从零状态 驱动到目标状态 。根据系统方程 ,经过 步后,最终状态 可以写成输入的线性组合:
即 。我们需要最小化输入能量 ,同时满足约束 。这是一个标准的最小范数解问题(求伪逆)。根据拉格朗日乘子法,最优解 为:
现在,我们计算这个最优输入的能量 :
当 时,矩阵 正是我们的 可控性 Gramian 。所以:
物理意义: 衡量了到达某个状态所需的最小输入能量,准确来说是 ,因此 的特征值越大,所需的能量越小。
定义(离散可观性格拉姆矩阵):假设上述系统是稳定且可观的,则存在唯一的对称正定矩阵 满足离散 Lyapunov 方程:
其显式解形式为:
物理意义: 衡量了 能产生多少输出能量,。
平衡实现 (Balanced Realizations)
定义(状态空间实现):离散时间线性系统 由其输入-输出映射完全刻画:
若四元组 及状态 能够实现上述映射,则称其为 的一个实现 (Realization)。
注:实现不唯一。若 是一个实现,则对于任意可逆矩阵 , 也是同一个系统的实现。
定义(最小实现 Mimimal):若一个实现既是可控的又是可观的,则称其为最小实现。其状态维度 称为实现的阶数 (Order)。
定义(平衡实现 Balanced):若一个实现的格拉姆矩阵满足 ,则称该实现是平衡的。此时记公共矩阵为 ,称为平衡系统的格拉姆矩阵。
Balanced realization 的意义是给系统找一把“公平的尺子”,让所有状态在“输入端”和“输出端”的重要性被同等看待。即对于某个状态 ,对于输入端 和输出端 是同等重要的。
定理(Antoulas, 2005):任意稳定、最小的离散 LTI 系统都存在一个平衡实现,其可控性和可观性格拉姆矩阵相等且为对角阵:
其中 称为 Hankel 奇异值 (Hankel Singular Values, HSV)。
计算方法:HSV 也可以通过非平衡实现的格拉姆矩阵计算得出:
Hankel 奇异值量化了每个状态的联合可控性和可观性。大的 对应既容易被控制又容易被观测的状态(即对系统动力学贡献大的状态)。
SRBT 算法:找到变换矩阵 同时对角化 和 。核心思想为利用 和 的“平方根”(Cholesky 因子)以及 SVD 分解来构造 。
- Cholesky 分解 (求平方根):由于 是对称正定矩阵,对其进行 Cholesky 分解:
其中 为下三角矩阵。
- 奇异值分解 (SVD):计算交叉乘积矩阵 并进行 SVD 分解
其中 即为包含 Hankel 奇异值的对角阵, 为正交矩阵。
- 构造变换矩阵:平衡变换矩阵 及其逆矩阵 可由下式给出:
直观理解: 融合了可控性信息 () 和可观性信息 (),将系统投影到一个两者“势均力敌”的坐标系中。
平衡截断 (Balanced Truncation)
平衡截断是一种模型降阶 (Model Order Reduction, MOR) 方法,利用 Hankel 奇异值的大小对状态进行取舍。
定义(平衡截断步骤):考虑一个稳定、最小的平衡实现 ,其格拉姆矩阵 ,其中 包含较大的 个奇异值, 包含剩余的 个较小奇异值。将系统矩阵分块:
其中 。
性质(降阶系统):由 定义的降阶系统 是稳定的,且满足以下误差界:
这表明截断误差由被丢弃的 Hankel 奇异值之和控制。
Hermitian 矩阵的谱稳定性 (Spectral Stability)
在训练状态空间模型 (SSMs) 时,梯度下降会逐步修改状态矩阵。了解这种扰动如何影响 Hankel 奇异值至关重要。
定理(Weyl, 1912):设 和 为 阶 Hermitian 矩阵(实对称矩阵),令 。设 表示 的第 大特征值。则 在 Hermitian 矩阵空间上关于算子范数是 Lipschitz 连续的:
物理意义: 的每个特征值的波动幅度不会超过扰动矩阵 的最大绝对特征值。这为训练过程中的谱变化提供了理论上界
CompreSSM 算法
CompreSSM 算法的核心思想是在训练过程中动态地对 SSM 层的线性系统进行平衡截断。该算法针对每一个 SSM 块(Block)独立进行。

算法输入:模型权重中的离散线性系统矩阵 。当前系统阶数(秩)。能量阈值 (预设超参数)。
Reduction Analysis 部分:求出系统中哪些状态是重要的
- 提取矩阵:从模型权重中提取 。
- 求解 Gramians:解离散 Lyapunov 方程获得 和 。 显示出哪些状态容易被输入激发(存能量), 显示出哪些状态容易影响输出(放能量)。当 是对角矩阵时, 的无穷级数可以用等比数列求和计算。
- 计算 HSV:计算 Hankel 奇异值 。 是第 个状态的【综合重要性得分】。
- 确定截断阶数 :找到满足总能量比例 的最小阶数 :
Balanced Truncation 部分:
- 判断是否截断:若 (即存在冗余),计算平衡变换矩阵 。否则,保持系统不变。
- 执行平衡变换:将系统转换到对角平衡实现:
- 执行截断:保留前 个维度(使用张量切片表示):
System Replacement 部分:将模型中的原始矩阵替换为截断后的矩阵:
训练中的动态降阶 (In-Training Reduction)
CompreSSM 主张在训练的早期(如学习率预热阶段)进行降阶。这依赖于以下理论和实验观察,证明了训练动力学有利于早期截断。
Hankel 奇异值的连续性
在梯度下降过程中,模型参数 发生微小变化 ,导致系统变为新的动力系统 。我们需要保证这种微小变化不会导致 Hankel 奇异值(即状态的重要性)发生剧烈跳变。
定义:令 ,其特征值即为 Hankel 奇异值。 对于系统扰动是连续的,记 。
引理 (训练更新下 HSV 的连续性): 根据 Weyl 定理,在梯度步之间,每个 Hankel 奇异值的变化幅度有上界:
这意味着状态的重要性评分 是关于模型权重的连续函数,不会突变。
相对次序的稳定性 (Stability of Relative Ordering)
仅有连续性是不够的。如果 HSV 的相对大小频繁交叉(即一个不重要的状态突然变得非常重要),那么早期的截断就是危险的。

实验观察:
- 图1 次序保持:实验表明 Hankel 奇异值的相对次序在训练初期迅速稳定。大奇异值保持较大,小奇异值保持较小。
- 图2 连续性:每步的 最大为 的量级,与 Singular Value 本身 的量级比起来可以算是连续的。
- 图3 次序保持:对每个维度进行追踪,次序保持稳定。
- 图4 能量贡献:底部 个(被截断的)维度的累积能量贡献在训练过程中始终维持在低位,很少获得实质性的能量增长。
结论: 在训练早期被识别为“可忽略”的维度,通常在整个训练过程中都保持可忽略状态。因此,早期截断决策与最终的重要性排名很少冲突,这使得 In-Training Reduction 既有效又鲁棒。
实验结果

- CompreSSM 模型:从大模型开始(如 CIFAR10 初始维度 384),训练中途自动变小。
- Baseline 模型:直接从一开始就训练小模型。
