复杂时间序列模型综述!
一、前言
时间序列分析是统计研究中的一大重要分支。通过指定的时间段内记录的一系列数据,时序分析可以提取有意义的统计信息和数据特征,并且对未发生的事件进行预测。传统的时序分析主要针对单变量时间序列数据建立线性模型 (Box et al., 2015; Brockwell and Davis, 2009; Tsay, 2005)、非线性模型 (Engle, 1982; Bollerslev, 1986; Tong, 1990)、非参数模型 (Fan and Yao, 2008) 等,或针对多变量/面板型时序数据进行研究 (Tiao and Box, 1981; Tiao and Tsay, 1989; Engle and Kroner, 1995; Stock and Watson, 2005; Tsay, 2013)。而复杂的观测数据,例如矩阵型时序数据,在各个领域都广泛存在,并且包含了更为复杂、全面的信息,因此本文对矩阵型时序分析方法,以及更复杂的张量型时序分析方法做一回顾。
二、矩阵型时序数据的现实场景
矩阵型时间序列数据蕴含在不同领域之中。通常情况下矩阵的列和行表示不同类别的信息,这些信息以一种非常结构化的方式密切相关。举个栗子,在金融领域中,不同时刻可以观测到不同公司的股票数据,而这些数据又可以通过不同的变量维度有所区分,例如公司A的股票市值、公司B的股票账面市值比等等,两个维度的分类手段使得不同时刻观测到的数据以矩阵的形式呈现。再举个栗子,在宏观经济领域,每一年都可以获得各个国家的宏观经济指标,例如GDP、CPI等等,这也构成了矩阵型的时间序列。此外,还有国际贸易领域、环境与污染领域,都大量存在这样的时间序列。
三、相关研究梳理
在传统的对矩阵时序进行分析的研究中,矩阵会被直接向量化,进而使用针对向量时序的研究方法进行研究 (See Chamberlain, 1983; Chamberlain & Rothschild, 1982; Bai, 2003; Bai & Ng, 2002; Bai & Ng, 2007; Forni et al., 2000; Forni et al., 2004; Pan & Yao, 2008; Lam et al., 2011; Lam & Yao, 2012)。这样会严重丢失矩阵观测中本身包含的大量相关信息,割裂了观测数据的内在关联,因此直接基于矩阵型时序分析的研究近几年来开始受到研究者关注。
矩阵型时间序列(matrix-valued time seires)这个词语第一次被提出是一篇信号处理的文章 (Walden and Serroukh, 2002),然而在这个研究中,序列数据的时间依赖性并没有被充分利用来建立模型。对于矩阵型时间序列的统计与计量研究的首次研究被Wang et al. (2019)提出,截至目前还不断涌出新的相关研究。Wang et al. 在研究矩阵时序数据时允许观测值是高维的,因此其研究点侧重于最维度进行处理。作者使用的核心方法是对矩阵型时序数据引入因子模型建模,从而实现维度的降低。
这个模型的因子载荷矩阵和因子矩阵都是随时间变化的,因此刻画了因子模型中的动态相关性。模型的形式为
其中,是t时刻观测到的数据矩阵,是维度比低的因子矩阵,和分别是行载荷矩阵与列载荷矩阵,是白噪声矩阵。
其中,
基于上述的基本模型,Chen et al. (2019) 提出通过线性约束的手段将先验知识融入矩阵时序因子模型。这种线性约束对待估参数进行了简化,同时增强了观测矩阵中所隐藏的因子结构的解释性。具体地,约束的矩阵时序因子模型可以表示为
以上的三个重要研究中,对矩阵时序因子模型的估计都是沿着Lam et al. (2011)和Lam and Yao (2012)的思路,对自相关协方差矩阵(auto-cross-covariance)进行特征值分析。而对于矩阵型时序因子模型的另一个研究思路则是借鉴了Bai (2003)和Fan et al. (2013)的研究方法,对同一时刻的观测矩阵的行或列所构成的协方差矩阵进行特征值分析。因此,下面我们介绍第二个研究思路。
在Wang et al. (2019)提出矩阵型时序的研究之后,除了上述使用因子模型对高维的矩阵时序进行降维,也有文章对矩阵时序的自回归模型进行研究。Chen et al. (2021)在其研究中刻画时序上的关联关系,模型可以表示为:
四、扩展研究——张量型时序数据
基于矩阵型时序数据,一些研究者将数据类型的范畴拓展到了多维张量。这里我们再举一个栗子,来展示什么是张量型时序数据。Chen et al. (2021) 对这种类型的时序数据做了研究,下图展示了2001年1月至2017年12月期间6个国家(美国、加拿大、墨西哥、德国、英国、法国)的4类产品(化工、食品、机电、鞋帽)月度进出口数量时间序列。每一个类别是一个平面,展示了出口国家(行)对进口国家(列)输送的产品量随时间变化的趋势。如果将这个场景简化为某一中产品从美国输出到别的国家的时序数据,或退化为美国向加拿大输出的4中产品的时序数据,那么问题就退化为了传统的向量时序分析;如果场景简化为某一个类别产品的进出口时序数据,则问题退化为矩阵型时序分析问题。
Chen et al. (2021) 提出了两种估计方法,分别是 TOPUP方法和TIPUP方法,利用张量展开和对滞后若干期的观测张量叉乘,得到张量版本的自相关协方差矩阵,进而使用特征值分解的方法,估计张量时序因子模型。在此基础上,Han et al. (2021)将TOPUP和TIPUP估计的结果作为初始估计量,提出了对应的迭代估计方法iTOPUP和iTIPUP,加快了上述估计的收敛速度。
五、实际数据应用解读
正如前文总结,矩阵型时序和张量型时序在经济、金融以及其他社会领域都有较为广泛的应用,这里介绍一个多国家宏观经济指数的例子。
六、小结
本文对矩阵型时间序列数据的模型与估计方法做了详细的梳理,并扩展至张量型时序数据。复杂的时序数据在经济、金融、社会领域的存在广泛,因此近年来诸多研究者对此进行探索。实例证明了这类模型的实用性和揭示高维时间序列特征的能力。未来的研究方向包括对多项模型的扩展和简化因子冗余的方法探究。将模型扩展为动态因子模型,在因子矩阵上施加动态结构,同样将有助于更准确的预测和更好地理解矩阵型时间序列的动态性质。
七、参考文献
Bai, J. (2003). Inferential theory for factor models of large dimensions. Econometrica, 71(1), 135-171.
Bai, J., & Ng, S. (2002). Determining the number of factors in approximate factor models. Econometrica, 70(1), 191-221.
Bai, J., & Ng, S. (2007). Determining the number of primitive shocks in factor models. Journal of Business & Economic Statistics, 25(1), 52-60.
Bollerslev, T. (1986). Generalized autoregressive conditional heteroskedasticity. Journal of econometrics, 31(3), 307-327.
Box, G. E., Jenkins, G. M., Reinsel, G. C., & Ljung, G. M. (2015). Time series analysis: forecasting and control. John Wiley & Sons.
Brockwell, P. J., & Davis, R. A. (2009). Time series: theory and methods. Springer Science & Business Media.
Chamberlain, G. (1983). Funds, factors, and diversification in arbitrage pricing models. Econometrica: Journal of the Econometric Society, 1305-1323.
Chamberlain, G., & Rothschild, M. (1982). Arbitrage, factor structure, and mean-variance analysis on large asset markets.
Chen, E. Y., & Chen, R. (2019). Modeling dynamic transport network with matrix factor models: with an application to international trade flow. arXiv preprint arXiv:1901.00769.
Chen, E. Y., & Fan, J. (2021). Statistical Inference for High-Dimensional Matrix-Variate Factor Models. Journal of the American Statistical Association, (just-accepted), 1-44.
Chen, E. Y., Tsay, R. S., & Chen, R. (2019). Constrained factor models for high-dimensional matrix-variate time series. Journal of the American Statistical Association.
Chen, R., Xiao, H., & Yang, D. (2021). Autoregressive models for matrix-valued time series. Journal of Econometrics, 222(1), 539-560.
Chen, R., Yang, D., & Zhang, C. H. (2021). Factor models for high-dimensional tensor time series. Journal of the American Statistical Association, 1-23.
Engle, R. F. (1982). Autoregressive conditional heteroscedasticity with estimates of the variance of United Kingdom inflation. Econometrica: Journal of the econometric society, 987-1007.
Engle, R. F., & Kroner, K. F. (1995). Multivariate simultaneous generalized ARCH. Econometric theory, 11(1), 122-150.
Fan, J., & Yao, Q. (2008). Nonlinear time series: nonparametric and parametric methods. Springer Science & Business Media.
Forni, M., Hallin, M., Lippi, M., & Reichlin, L. (2000). The generalized dynamic-factor model: Identification and estimation. Review of Economics and statistics, 82(4), 540-554.
Forni, M., Hallin, M., Lippi, M., & Reichlin, L. (2004). The generalized dynamic factor model consistency and rates. Journal of Econometrics, 119(2), 231-255.
Lam, C., & Yao, Q. (2012). Factor modeling for high-dimensional time series: inference for the number of factors. The Annals of Statistics, 694-726.
Lam, C., Yao, Q., & Bathia, N. (2011). Estimation of latent factors for high-dimensional time series. Biometrika, 98(4), 901-918.
Pan, J., & Yao, Q. (2008). Modelling multiple time series via common factors. Biometrika, 95(2), 365-379.
Stock, J. H., & Watson, M. W. (2005). An empirical comparison of methods for forecasting using many predictors. Manuscript, Princeton University, 46.
Tiao, G. C., & Box, G. E. (1981). Modeling multiple time series with applications. Journal of the American Statistical Association, 76(376), 802-816.
Tiao, G. C., & Tsay, R. S. (1989). Model specification in multivariate time series. Journal of the Royal Statistical Society: Series B (Methodological), 51(2), 157-195.
Tong, H. (1990). Non-linear time series: a dynamical system approach. Oxford University Press.
Tsay, R. S. (2005). Analysis of financial time series (Vol. 543). John wiley & sons.
Tsay, R. S. (2013). Multivariate time series analysis: with R and financial applications. John Wiley & Sons.
Walden, A. T., & Serroukh, A. (2002). Wavelet analysis of matrix–valued time–series. Proceedings of the Royal Society of London. Series A: Mathematical, Physical and Engineering Sciences, 458(2017), 157-179.
Wang, D., Liu, X., & Chen, R. (2019). Factor models for matrix-valued high-dimensional time series. Journal of econometrics, 208(1), 231-248.
Yu, L., He, Y., Kong, X., & Zhang, X. (2021). Projected estimation for large-dimensional matrix factor models. Journal of Econometrics.
- END -往期精彩: