# 平稳时间序列

# 为什么要平稳性?

  • 时间序列数据传统统计数据 结构不同。最大的区别在于,传统随机变量可以得到同一分布的多个观测值(比如骰子点数,可以反复掷得到多个观测值,忽略时间的差异)。而时间序列数据中,每个随机变量只有一个观测值(比如设收盘价为研究的随机变量,每天只有一个收盘价,不同日子的价格服从的分布不同,即考虑时间的差异)。这样一来,每个分布只能得到一个观测值,数目太少,无法研究分布的性质。但是通过平稳性,从不同日期的分布之间发现内在关联,缓解了由于样本容量少导致的估计精度低的问题。

  • 研究时间序列的最终目的是,预测未来。但是未来是不可知的,我们拥有的数据都是历史,因此只能用历史数据来预测未来。但是,如果过去的数据与未来的数据没有某种 “相似度”,那这种预测就毫无道理了。平稳性就是保证这种过去与未来的相似性,如果数据是平稳的,那么可以认为过去的数据表现出的某些性质,未来也会表现

# 基础定义

想象你每天记录同一河流的某位置水流量变化。如果满足以下条件,就是平稳的时间序列:

  1. 均值稳定
    无论上午还是下午测量,水量的平均值保持不变。
    数学表达:E (Xₜ) = μ(对所有时刻 t,均值相同)

  2. 方差稳定
    水量波动的幅度不随时间改变。
    数学表达:Var (Xₜ) = σ²(方差恒定)

  3. 协方差只与时间间隔有关
    今天 10 点和 11 点的水量关系,与明天 10 点和 11 点的关系一致。
    数学表达:Cov (Xₜ, Xₜ₊ₖ) = γₖ(只与间隔 k 有关,与具体时间 t 无关)

# 严平稳和宽平稳什么区别?

  1. 严平稳(Strict Stationarity)
    • 定义:时间平移后,任意等长的多维向量,其联合分布相同,即所有统计性质(如分布形状)完全不变。
    • 例子:抛骰子的序列,无论何时截取一段,结果分布都相同。
    • 缺点:条件太严格,实际中难以验证。
  2. 宽平稳(Weak Stationarity)
    • 定义:只需满足均值、方差、协方差稳定(不要求分布完全相同)。
    • 例子:股票收益率序列,长期看波动结构稳定。
    • 实际应用:统计建模常用宽平稳,条件更易满足。

# 随机游走为什么不稳定?

假设初始位置为 0,每个时间点的位置为:

Xt=Xt1+ϵtXt=X_{t−1}+ϵ_t

其中,ϵtϵ_t 是白噪声(均值为 0,方差固定为σ2σ^2,且前后不相关)。
每一步的位置都是前一步位置加上一个随机扰动,这就是随机游走。

尽管其数学期望稳定,但方差不稳定(Var(Xt)=tσ2Var(X_t)=t\sigma^2

如果模型的特征方程根为 1(即 “单位根”),会导致序列具有 长期记忆性:任何随机扰动(ϵtϵ_t)都会永久影响后续所有时刻的值,序列会逐渐偏离初始位置(非平稳)。

# 差分有什么用?

差分,即计算当前值与前一时刻的差值

它能消除序列中的趋势或周期性。例如,股价本身非平稳,但每日涨跌幅(差分)通常是平稳的。

数学上,差分能消除单位根,将非平稳的累积过程(如随机游走)转化为平稳的白噪声。

操作时,可以多次差分,也可以先取对数再差分。

# 矩阵有效值分解

参考博客

假设我们先对方阵进行了去中心化,即每条序列都减去自己的均值,保证零均值,得到XX

# SVD

对中心化后的 X 做分解:

X=UΣVTX=UΣV^T

其中Σ\Sigma 对角线上的每个奇异值σ\sigma 就是特征成分的重要程度

其值越大,就说明对应的方向(在 VV 的列向量里)对数据的 “能量”(方差)贡献越多

# PCA

PCA 本质上是在看协方差矩阵:

C=1T1XTXC=\dfrac{1}{T-1}X^TX

然后对协方差矩阵进行特征分解,找到特征值λi\lambda_i 以及特征向量viv_i,那其实 SVD 的奇异值平方后、再除以 T-1,就成了 PCA 的特征值,每个特征向量也和 SVD 中 V 的列对应

在数据科学中,方差大 = 数据所包含信息量大

# 相关系数

如果你把每条序列再除以自己的标准差(变成单位方差),
那求 PCA 过程中所用的协方差矩阵,就变成了 “相关系数矩阵”RR
RR 做特征分解,得到λi\lambda_i(特征值)表示对应主成分解释了多少相关性。

# 有效秩

{σi}\{\sigma_i\}{λi}\{\lambda_i\} 计算其分布情况 ——

  • 先计算概率归一化:

    pi=σijσjp_i=\dfrac{σ_i}{∑_jσ_j}

  • 计算熵

    H=iplnpiH=-∑\limits_{i}p\:lnp_i

  • 取指数

    EffRank=eH\text{EffRank}=e^H

  1. 分布平坦,方差越均匀分散,信息熵大,有效秩就大

  2. 分布几个峰,方差越集中,信息熵小,有效秩就小

总访问量:加载中...更新于

谢谢你请我喝[茶]!(๑OvO๑)♪

柳小寒寒子 微信支付

微信支付