在统计学 与计量经济学 所使用的时间序列 分析中,自回归单整移动平均模型 (ARIMA )和季节性ARIMA模型 (SARIMA )分别是自回归移动平均模型 (ARMA)向非平稳序列和周期性变化情形的推广。所有这些模型都是为了更好地理解时间序列 并预测未来值而拟合的。这种推广的目的是使模型尽可能贴合数据。具体而言,ARMA模型假设序列具有平稳性,即其期望值不随时间变化。若序列存在趋势(但方差/自协方差 保持恒定),可通过“差分”操作消除趋势,[ 1] 得到平稳序列。这种操作实现了对ARMA模型的推广,对应着ARIMA中的“单整”(integrated )部分。类似地,周期性变化可通过“季节性差分”操作消除。[ 2]
组成部分
与ARMA模型类似,ARIMA中的“自回归”(AR )部分表示感兴趣的演进变量对其前期值进行回归 ;“移动平均”(MA )部分表示回归误差是同时期及过去不同时期误差 项的线性组合 [ 3] ;而“单整”(I )部分表示数据值已被替换为当前值与前一值的差值(即通过差分操作消除趋势)。
根据Wold分解定理 [ 4] [ 5] [ 6] ,ARMA模型足以描述规则 (亦称纯非确定性[ 6] )的广义平稳 时间序列。这促使我们在应用ARMA模型前,需先通过差分等操作将非平稳序列转化为平稳形式。[ 7]
若时间序列包含可预测 子过程(亦称纯正弦或复值指数过程[ 5] ),则该可预测成分在ARIMA框架下被视为具有非零均值但周期性(即季节性)的成分,可通过季节性差分操作予以消除。
数学形式
非季节性ARIMA模型通常记作 ARIMA(p , d , q ),其中参数 p , d , q 为非负整数:p 表示自回归 部分的阶数(时间滞后项的数量),d 表示单整 的阶数(即数据经过差分操作的次数,即当前值与过去值相减的次数),q 表示移动平均 部分的阶数。季节性ARIMA模型通常记作 ARIMA(p , d , q )(P , D , Q )m ,其中大写字母 P , D , Q 分别对应季节性部分的自回归、单整(差分)、移动平均项,m 表示每个季节包含的周期数。[ 8] [ 2] 当三个参数中有两个为0时,模型名称可根据非零参数简化,省略缩写中的“AR ”、“I ”或“MA ”。例如,
ARIMA
(
1
,
0
,
0
)
{\displaystyle {\text{ARIMA}}(1,0,0)}
可简称为AR(1) ,
ARIMA
(
0
,
1
,
0
)
{\displaystyle {\text{ARIMA}}(0,1,0)}
称为I(1) ,
ARIMA
(
0
,
0
,
1
)
{\displaystyle {\text{ARIMA}}(0,0,1)}
称为 MA(1) 。
给定时间序列数据 X t ,其中 t 为整数索引且 X t 为实数,则
ARMA
(
p
′
,
q
)
{\displaystyle {\text{ARMA}}(p',q)}
模型可表示为:
X
t
−
α
1
X
t
−
1
−
⋯
−
α
p
′
X
t
−
p
′
=
ε
t
+
θ
1
ε
t
−
1
+
⋯
+
θ
q
ε
t
−
q
,
{\displaystyle X_{t}-\alpha _{1}X_{t-1}-\dots -\alpha _{p'}X_{t-p'}=\varepsilon _{t}+\theta _{1}\varepsilon _{t-1}+\cdots +\theta _{q}\varepsilon _{t-q},}
或等价形式:
(
1
−
∑
i
=
1
p
′
α
i
L
i
)
X
t
=
(
1
+
∑
i
=
1
q
θ
i
L
i
)
ε
t
{\displaystyle \left(1-\sum _{i=1}^{p'}\alpha _{i}L^{i}\right)X_{t}=\left(1+\sum _{i=1}^{q}\theta _{i}L^{i}\right)\varepsilon _{t}\,}
其中
L
{\displaystyle L}
为滞后算子 ,
α
i
{\displaystyle \alpha _{i}}
为模型自回归部分的参数,
θ
i
{\displaystyle \theta _{i}}
为移动平均部分的参数,
ε
t
{\displaystyle \varepsilon _{t}}
为误差项 。通常假设误差项
ε
t
{\displaystyle \varepsilon _{t}}
为独立同分布 的随机变量,服从均值为0的正态分布 。
若多项式
(
1
−
∑
i
=
1
p
′
α
i
L
i
)
{\displaystyle \textstyle \left(1-\sum _{i=1}^{p'}\alpha _{i}L^{i}\right)}
存在一个重数为 d 的单位根 (即因子
(
1
−
L
)
{\displaystyle (1-L)}
出现d 次),则可将其重写为:
(
1
−
∑
i
=
1
p
′
α
i
L
i
)
=
(
1
−
∑
i
=
1
p
′
−
d
φ
i
L
i
)
(
1
−
L
)
d
.
{\displaystyle \left(1-\sum _{i=1}^{p'}\alpha _{i}L^{i}\right)=\left(1-\sum _{i=1}^{p'-d}\varphi _{i}L^{i}\right)\left(1-L\right)^{d}.}
此时,ARIMA(p , d , q ) 过程通过 p = p'−d 体现此多项式分解特性,其数学形式为:
(
1
−
∑
i
=
1
p
φ
i
L
i
)
(
1
−
L
)
d
X
t
=
(
1
+
∑
i
=
1
q
θ
i
L
i
)
ε
t
{\displaystyle \left(1-\sum _{i=1}^{p}\varphi _{i}L^{i}\right)(1-L)^{d}X_{t}=\left(1+\sum _{i=1}^{q}\theta _{i}L^{i}\right)\varepsilon _{t}\,}
该过程本质上是自回归多项式包含 d 个单位根的 ARMA(p+d , q ) 过程。(这也是为何当 d > 0 时,严格符合ARIMA模型的过程不具有广义平稳性 的原因。)
进一步推广后,模型形式为:
(
1
−
∑
i
=
1
p
φ
i
L
i
)
(
1
−
L
)
d
X
t
=
δ
+
(
1
+
∑
i
=
1
q
θ
i
L
i
)
ε
t
.
{\displaystyle \left(1-\sum _{i=1}^{p}\varphi _{i}L^{i}\right)(1-L)^{d}X_{t}=\delta +\left(1+\sum _{i=1}^{q}\theta _{i}L^{i}\right)\varepsilon _{t}.\,}
此时定义了一个具有漂移项
δ
1
−
∑
φ
i
{\displaystyle {\frac {\delta }{1-\sum \varphi _{i}}}}
的 ARIMA(p , d , q ) 过程。
参见
参考文献
^ For further information on Stationarity and Differencing see https://www.otexts.org/fpp/8/1
^ 2.0 2.1 Hyndman, Rob J; Athanasopoulos, George. 8.9 Seasonal ARIMA models . Forecasting: principles and practice. oTexts. [19 May 2015] .
^ Box, George E. P. Time Series Analysis: Forecasting and Control. WILEY. 2015. ISBN 978-1-118-67502-1 .
^ Hamilton, James. Time Series Analysis. Princeton University Press. 1994. ISBN 9780691042893 .
^ 5.0 5.1 Papoulis, Athanasios. Probability, Random Variables, and Stochastic processes. Tata McGraw-Hill Education. 2002.
^ 6.0 6.1 Triacca, Umberto. The Wold Decomposition Theorem (PDF) . 19 Feb 2021. (原始内容存档 (PDF) 于2016-03-27).
^ Wang, Shixiong; Li, Chongshou; Lim, Andrew. Why Are the ARIMA and SARIMA not Sufficient. 2019-12-18. arXiv:1904.07632 [stat.AP ].
^ Notation for ARIMA Models . Time Series Forecasting System. SAS Institute. [19 May 2015] .
延伸阅读
外部链接