S4D - State Space Models

背景与预备知识

连续系统与卷积格式

系统方程：模型由以下线性微分方程定义

$\overset{x}{˙} (t) = A x (t) + B u (t), y (t) = C x (t)$

$A \in C^{N \times N}$ 为系统矩阵（State Matrix）， $B \in R^{C \times 1}$ 为输入矩阵， $C \in C^{1 \times N}$ 为输出矩阵。

卷积形式 (Convolution View)：若 $x (0) = 0 \in C^{N}$ ，则上述系统可写为

$K (t) = C e^{A t} B, y (t) = (K * u) (t)$

其中卷积定义为 $(f * g) (t) = \int_{- \infty}^{\infty} f (τ) g (t - τ) d τ$ 。

证明：根据常数变异法可解出方程的解

$x (t) = \int_{0}^{t} e^{A (t - τ)} B u (τ) d τ \Rightarrow y (t) = \int_{0}^{t} C e^{A (t - τ)} B u (τ) d τ .$

令 $K (t) = C e^{A t} B$ ，则得到

$y (t) = \int_{0}^{t} K (t - τ) u (τ) d τ \Rightarrow y (t) = (K * u) (t) .$

在对角 SSM 的情形下， $A$ 为对角矩阵。此时符号 $A_{n}, B_{n}, C_{n}$ 表示对应参数的元素分量。

Structured State Spaces Model (S4)

HiPPO 矩阵：为了有效地捕捉长期依赖， $A$ 矩阵被初始化为特定的 HiPPO-LegS 矩阵。其元素定义为：

$A_{nk} = ⎩ ⎨ ⎧ - (2 n + 1)^{1/2} (2 k + 1)^{1/2} - (n + 1) 0 if n > k if n = k if n < k$

DPLR 结构：为了加速矩阵指数 $e^{A t}$ 的计算，S4 将矩阵 $A$ 约束为对角阵加低秩矩阵 (Diagonal Plus Low-Rank, DPLR) 结构：

$A = A^{(N)} - P P^{T}$

低秩项 $P \in R^{N \times 1}$ ：其元素定义为 $P_{n} = (n + 1/2)^{1/2}$ 。
正规矩阵 $A^{(N)} \in R^{N \times N}$ ：这是一个斜对称矩阵（Skew-symmetric）加上对角阵。其元素满足：

$A_{nk}^{(N)} = ⎩ ⎨ ⎧ - (n + 1/2)^{1/2} (k + 1/2)^{1/2} - 1/2 (n + 1/2)^{1/2} (k + 1/2)^{1/2} if n > k if n = k if n < k$

Diagonal State Spaces (DSS)

核心结论：近期研究（由 Gupta 等人提出）发现，S4 中的低秩项部分（即 $P P^{T}$ ）在某些情况下可以省略，从而进一步简化模型。DSS 证明了通过对 S4 矩阵进行对角化处理，依然能够保持捕捉长程记忆的能力，同时极大地简化了代码实现和计算流程。

符号	全称	说明
$A$	HiPPO-LegS	原始的 HiPPO 矩阵（下三角矩阵），在 S4 中使用
$A^{(N)}$	HiPPO-LegS-N	矩阵 $A$ 的正规部分（Normal part），具有斜对称性。
$A^{(D)}$	HiPPO-LegS-D	矩阵 $A^{(N)}$ 的对角化形式，即其特征值组成的对角阵。在 DSS 中使用。

S4D 模型

连续系统的离散：给定步长 $Δ t$ ，连续参数 $(A, B)$ 可通过以下两种常用方法转换为离散参数 $(\overline{A}, \overline{B})$ ：

双线性变换 (Bilinear):

$\overline{A} = (I - Δ t /2 A)^{- 1} (I + Δ t /2 A), \overline{B} = (I - Δ t /2 A)^{- 1} \cdot Δ t B$

零阶保持 (ZOH):

$\overline{A} = exp (Δ t A), \overline{B} = (Δ t A)^{- 1} (exp (Δ t A) - I) \cdot Δ t B$

离散卷积核：离散时间 SSM 的输出为 $y = u * \overline{K}$ ，其中离散卷积核 $\overline{K}$ 具有 Krylov 子空间结构：

$\overline{K} = (C \overline{B}, C \overline{A} \overline{B}, \dots, C \overline{A}^{L - 1} \overline{B})$

卷积核计算：

A 参数化：为保证稳定性（防止 $t \to \infty$ 时核爆炸），通常强制 $A$ 的实部为负。 $A = - exp (A_{R e}) + i \cdot A_{I m}$ （或使用 ReLU 等激活函数）。

方法	结构 (Structure)	核计算 (Kernel Comp.)	离散化 (Discretization)	约束 $ℜ (A)$	可训练 $B$	初始化 $A$
S4	DPLR	Cauchy	Bilinear	$exp$	Yes	HiPPO
DSS	Diagonal	Softmax	ZOH	None (id)	No	HiPPO-D
S4D	Diagonal	Vandermonde	Any (Bilinear/ZOH)	$exp$ / ReLU	Optional	Various

对角状态矩阵的初始化

对角系数矩阵的稠密性

命题：任意状态空间模型 $(A, B, C)$ 等价于 $(V^{- 1} A V, V^{- 1} B, C V)$ 模型，其中 $V \in C^{N \times N}$ 为可逆矩阵。

证明：考虑如下线性系统

$\overset{x}{˙} (t) = A x (t) + B u (t), y (t) = C x (t) .$

令 $x = V ℓ (t)$ ，则上述系统等价于 $V \dot{ℓ} (t) = A V ℓ (t) + B u (t)$ 以及 $y (t) = C V ℓ (t)$ ，因此我们得到新系统

$\dot{ℓ} (t) = V^{- 1} A V ℓ (t) + V^{- 1} B u (t), y (t) = C V ℓ (t) .$

命题：所有 $C^{N \times N}$ 中的可对角化矩阵集合 $D \subset C^{N \times N}$ 在 $C^{N \times N}$ 中稠密。

不可对角化矩阵之所以“稀有”，是因为它要求特征方程 $det (λ I - A) = 0$ 必须有重根，并且这些重根对应的几何重数小于代数重数。
上述命题证明了纯对角矩阵在数学上可以表示任何线性系统，但这并不意味着能通过梯度下降轻易地“练”出这个效果。事实上 Albert Gu 等人证明了如果使用随机初始化，稠密实矩阵和对角复矩阵的表达能力都较差。
数值稳定性至关重要。具有相同频谱（即等价于相同对角阵）的两个初始化可能有截然不同的性能表现。

S4D 格式推导

S4D-LegS：令 $A = A^{(N)} - P P^{⊤}$ 为 HiPPO-LegS 矩阵。当状态维度 $N \to \infty$ 时，由正规部分 $A^{(N)}$ (即 S4D-LegS) 生成的 kernel bases $K_{A^{(N)}, B /2} (t)$ 收敛于原始 S4 的 kernel bases $K_{A, B} (t)$ 。

alt text

S4D-Inv：为了进一步简化 S4D-LegS，我们分析 $A^{(D)}$ 的结构。实部恒定为 $Re (A) = - \frac{1}{2}$ ，虚部遵循逆缩放律。猜测当 $N \to \infty$ 时，虚部 $Im (A)_{n} \approx Θ (n^{- 1})$ 。

$A_{n} = - \frac{1}{2} + i \frac{N}{π} (\frac{N}{2 n + 1} - 1)$

S4D-Lin：更简单的初始化 S4D-Lin 近似于傅里叶级数频率（对应 S4-FouT 变体）。其基函数 $e^{t A} B$ 表现为阻尼傅里叶基函数。

$A_{n} = - \frac{1}{2} + iπn .$

方法	实部 $Re (A)$	虚部 $Im (A)$ 分布	数学解释
S4D-LegS	$- \frac{1}{2}$	复杂 (来自 HiPPO 对角化)	渐近等价于 S4-LegS
S4D-Inv	$- \frac{1}{2}$	$\propto n^{- 1}$ (逆律)	S4D-LegS 的闭式近似
S4D-Lin	$- \frac{1}{2}$	$\propto n$ (线性)	阻尼傅里叶级数 (S4-FouT)

Keyboard shortcuts

State Space Models