Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

背景与预备知识

连续系统与卷积格式

系统方程:模型由以下线性微分方程定义

为系统矩阵(State Matrix), 为输入矩阵, 为输出矩阵。

卷积形式 (Convolution View):若 ,则上述系统可写为

其中卷积定义为

证明:根据常数变异法可解出方程的解

,则得到

在对角 SSM 的情形下, 为对角矩阵。此时符号 表示对应参数的元素分量。

Structured State Spaces Model (S4)

HiPPO 矩阵:为了有效地捕捉长期依赖, 矩阵被初始化为特定的 HiPPO-LegS 矩阵。其元素定义为:

DPLR 结构:为了加速矩阵指数 的计算,S4 将矩阵 约束为对角阵加低秩矩阵 (Diagonal Plus Low-Rank, DPLR) 结构:

  • 低秩项 : 其元素定义为
  • 正规矩阵 : 这是一个斜对称矩阵(Skew-symmetric)加上对角阵。其元素满足:

Diagonal State Spaces (DSS)

核心结论:近期研究(由 Gupta 等人提出)发现,S4 中的低秩项部分(即 )在某些情况下可以省略,从而进一步简化模型。DSS 证明了通过对 S4 矩阵进行对角化处理,依然能够保持捕捉长程记忆的能力,同时极大地简化了代码实现和计算流程。

符号全称说明
HiPPO-LegS原始的 HiPPO 矩阵(下三角矩阵),在 S4 中使用
HiPPO-LegS-N矩阵 的正规部分(Normal part),具有斜对称性。
HiPPO-LegS-D矩阵 的对角化形式,即其特征值组成的对角阵。在 DSS 中使用。

S4D 模型

连续系统的离散:给定步长 ,连续参数 可通过以下两种常用方法转换为离散参数

  • 双线性变换 (Bilinear):

  • 零阶保持 (ZOH):

离散卷积核:离散时间 SSM 的输出为 ,其中离散卷积核 具有 Krylov 子空间结构:

卷积核计算

A 参数化:为保证稳定性(防止 时核爆炸),通常强制 的实部为负。 (或使用 ReLU 等激活函数)。

方法结构 (Structure)核计算 (Kernel Comp.)离散化 (Discretization)约束 可训练 初始化
S4DPLRCauchyBilinearYesHiPPO
DSSDiagonalSoftmaxZOHNone (id)NoHiPPO-D
S4DDiagonalVandermondeAny (Bilinear/ZOH) / ReLUOptionalVarious

对角状态矩阵的初始化

对角系数矩阵的稠密性

命题:任意状态空间模型 等价于 模型,其中 为可逆矩阵。

证明:考虑如下线性系统

,则上述系统等价于 以及 ,因此我们得到新系统

命题:所有 中的可对角化矩阵集合 中稠密。

  • 不可对角化矩阵之所以“稀有”,是因为它要求特征方程 必须有重根,并且这些重根对应的几何重数小于代数重数。
  • 上述命题证明了纯对角矩阵在数学上可以表示任何线性系统,但这并不意味着能通过梯度下降轻易地“练”出这个效果。事实上 Albert Gu 等人证明了如果使用随机初始化,稠密实矩阵和对角复矩阵的表达能力都较差。
  • 数值稳定性至关重要。具有相同频谱(即等价于相同对角阵)的两个初始化可能有截然不同的性能表现。

S4D 格式推导

S4D-LegS:令 为 HiPPO-LegS 矩阵。当状态维度 时,由正规部分 (即 S4D-LegS) 生成的 kernel bases 收敛于原始 S4 的 kernel bases

alt text

S4D-Inv:为了进一步简化 S4D-LegS,我们分析 的结构。实部恒定为 ,虚部遵循逆缩放律。猜测当 时,虚部

S4D-Lin:更简单的初始化 S4D-Lin 近似于傅里叶级数频率(对应 S4-FouT 变体)。其基函数 表现为阻尼傅里叶基函数。

方法实部 虚部 分布数学解释
S4D-LegS复杂 (来自 HiPPO 对角化)渐近等价于 S4-LegS
S4D-Inv (逆律)S4D-LegS 的闭式近似
S4D-Lin (线性)阻尼傅里叶级数 (S4-FouT)