结构化状态空间模型

前置知识:状态空间模型

结构化状态空间序列模型(Structured state space sequence models, SSSM)是一种高级时间序列分析工具,它融合了传统状态空间模型的理论框架和现代深度学习技术的能力。这种模型特别适合处理具有复杂内在结构的序列数据,例如时间序列中的长期依赖、周期性模式、季节性变化等。SSSM通过引入结构化的方式来表示和处理状态空间,从而能够高效地捕获和建模序列数据的动态性和复杂性。

SSSM 可由四个参数 定义, 选择性因子,形状与输入相同,用于控制每个时间步对应的状态更新程度, 表示状态转移矩阵, 分别表示输入到状态和状态到输出的映射矩阵。他们分两个阶段定义序列到序列的转换。

一、推理

1. 状态空间模型

SSSM 的第一步,就是对系统建立状态空间模型,如果记输入为 ,输出为 ,系统状态为 ,则按照状态空间模型的理论很容易列出状态方程和观测方程:

注意这是在深度学习的语境下,因此观测方程不含从输入到输出的项。

2. 离散化

在状态空间模型中, 均为连续变量矩阵,而此时我们记:

为系统的离散参数。离散化可以赋予连续时间系统更多的特性,如分辨率不变性和自动确保模型正确归一化。它还与 RNN 的门控机制有关。不过,离散化可以简单地看作是 SSM 前向传递中计算图的第一步。另一种 SSM 可以绕过离散化步骤,直接参数化 (A,B)(Zhang 等,2023 年),这可能更容易推理。

3. 计算

经过离散化

在时间序列模型中,表现出想打性能。

改进Mamba