背景与预备知识
连续系统与卷积格式
系统方程:模型由以下线性微分方程定义
为系统矩阵(State Matrix), 为输入矩阵, 为输出矩阵。
卷积形式 (Convolution View):若 ,则上述系统可写为
其中卷积定义为 。
证明:根据常数变异法可解出方程的解
令 ,则得到
在对角 SSM 的情形下, 为对角矩阵。此时符号 表示对应参数的元素分量。
Structured State Spaces Model (S4)
HiPPO 矩阵:为了有效地捕捉长期依赖, 矩阵被初始化为特定的 HiPPO-LegS 矩阵。其元素定义为:
DPLR 结构:为了加速矩阵指数 的计算,S4 将矩阵 约束为对角阵加低秩矩阵 (Diagonal Plus Low-Rank, DPLR) 结构:
- 低秩项 : 其元素定义为 。
- 正规矩阵 : 这是一个斜对称矩阵(Skew-symmetric)加上对角阵。其元素满足:
Diagonal State Spaces (DSS)
核心结论:近期研究(由 Gupta 等人提出)发现,S4 中的低秩项部分(即 )在某些情况下可以省略,从而进一步简化模型。DSS 证明了通过对 S4 矩阵进行对角化处理,依然能够保持捕捉长程记忆的能力,同时极大地简化了代码实现和计算流程。
| 符号 | 全称 | 说明 |
|---|---|---|
| HiPPO-LegS | 原始的 HiPPO 矩阵(下三角矩阵),在 S4 中使用 | |
| HiPPO-LegS-N | 矩阵 的正规部分(Normal part),具有斜对称性。 | |
| HiPPO-LegS-D | 矩阵 的对角化形式,即其特征值组成的对角阵。在 DSS 中使用。 |
S4D 模型
连续系统的离散:给定步长 ,连续参数 可通过以下两种常用方法转换为离散参数 :
- 双线性变换 (Bilinear):
- 零阶保持 (ZOH):
离散卷积核:离散时间 SSM 的输出为 ,其中离散卷积核 具有 Krylov 子空间结构:
卷积核计算:
A 参数化:为保证稳定性(防止 时核爆炸),通常强制 的实部为负。 (或使用 ReLU 等激活函数)。
| 方法 | 结构 (Structure) | 核计算 (Kernel Comp.) | 离散化 (Discretization) | 约束 | 可训练 | 初始化 |
|---|---|---|---|---|---|---|
| S4 | DPLR | Cauchy | Bilinear | Yes | HiPPO | |
| DSS | Diagonal | Softmax | ZOH | None (id) | No | HiPPO-D |
| S4D | Diagonal | Vandermonde | Any (Bilinear/ZOH) | / ReLU | Optional | Various |
对角状态矩阵的初始化
对角系数矩阵的稠密性
命题:任意状态空间模型 等价于 模型,其中 为可逆矩阵。
证明:考虑如下线性系统
令 ,则上述系统等价于 以及 ,因此我们得到新系统
命题:所有 中的可对角化矩阵集合 在 中稠密。
- 不可对角化矩阵之所以“稀有”,是因为它要求特征方程 必须有重根,并且这些重根对应的几何重数小于代数重数。
- 上述命题证明了纯对角矩阵在数学上可以表示任何线性系统,但这并不意味着能通过梯度下降轻易地“练”出这个效果。事实上 Albert Gu 等人证明了如果使用随机初始化,稠密实矩阵和对角复矩阵的表达能力都较差。
- 数值稳定性至关重要。具有相同频谱(即等价于相同对角阵)的两个初始化可能有截然不同的性能表现。
S4D 格式推导
S4D-LegS:令 为 HiPPO-LegS 矩阵。当状态维度 时,由正规部分 (即 S4D-LegS) 生成的 kernel bases 收敛于原始 S4 的 kernel bases 。

S4D-Inv:为了进一步简化 S4D-LegS,我们分析 的结构。实部恒定为 ,虚部遵循逆缩放律。猜测当 时,虚部 。
S4D-Lin:更简单的初始化 S4D-Lin 近似于傅里叶级数频率(对应 S4-FouT 变体)。其基函数 表现为阻尼傅里叶基函数。
| 方法 | 实部 | 虚部 分布 | 数学解释 |
|---|---|---|---|
| S4D-LegS | 复杂 (来自 HiPPO 对角化) | 渐近等价于 S4-LegS | |
| S4D-Inv | (逆律) | S4D-LegS 的闭式近似 | |
| S4D-Lin | (线性) | 阻尼傅里叶级数 (S4-FouT) |