R语言多元线性回归、ARIMA分析美国不同候选人对经济GDP时间序列影响
全文链接:http://tecdat.cn/?p=28144
作者:Yuanchang Luo
近段时间,美国总统大选引起了世界各国的关注。共和党候选人唐纳德·特朗普和民主党候选人乔·拜登将角逐总统。两党候选人在金融贸易、经济金融治理以及防控措施等重点发展领域有着不同的立场和纲领。不同的立场的候选人对美国甚至全世界的经济发展有着一定的影响,本文结合具体数据,定量分析不同候选人对美国经济发展的影响。
解决方案
任务/目标
根据美国各指标数据以及两位候选人的不同 政策,分析出对美国经济的影响。
数据源准备
在美国政府公开数据集上搜索数据,共 26 类, 并且用 GDP 来反映美国经济。得到数据后, 由于是时间序列数据,因此通过拉格朗日插值 法补充空值。并且,由于是美国政府公开的数 据集,因此默认异常值,即较大较小值是由实 际历史因素导致的,不作处理。
特征抽取
首先经过观察特征间的相关矩阵以及和因变量的相 关性,初步剔除 7 个与因变量相关性非常低且指标 间相关性较高的指标,使用剩余19个自变量作为 回归分析的指标。(剔除掉的指标:'美国个人收入 中位数','个人所得税(最高)','个人所得税(最低) ','商品和服务出口','金融资产净收购','劳动力市场状 况指数','失业率')
建模
多元线性回归,一般应用与多个特征指标的回 归问题。在多元线性回归的过程中,除了考虑模型的 AIC 最小外,还需考虑模型间自变量相互的关 系对因变量的影响,即多重共线性,通过 VIF 来剔除相关自变量。ARIMA,一般应用在时间序列领域上。ARIMA 模型是指将非平稳时间序列转化为平 稳时间序列,然后将结果变量做自回归(AR) 和自平移(MA)。
相关视频
模型优化
1.通过 VIF 准则剔除相关的自变量:
上图为 VIF 最初结果和最终结果。进一步筛选 7 个指标进行预测。
2.通过 AIC 准则选择最优模型
结合各因素的 t 检验以及模型的 AIC,通过向 前向后选择的方法,选择出最优的回归模型。
结合上图,确信此回归模型表现良好。
点击标题查阅往期内容
左右滑动查看更多
3.时间序列预测自变量
由于美国政府公开的数据截至到 19 年,而我 们需要 21 年 1 月份自变量的数据以次来预测 不同候选人当选对经济的影响,因此通过时间 序列对 5 个指标往后预测 5 季度的数值。
4.不同政策对特征的定量影响
结合不同候选人的政策,可以人为定性的分析 出对各特征的影响是增大还是减小,然后通过 平均 20 年的数据,算出各特征增大以及减小 的百分比均值,以此来估计影响的具体数值。这样一来,对历史数据通过 ARIMA 模型得到 20 年的的数据,然后通过各候选人的不同政 策对指标的影响以及历史变动均值,就得到了 21 年四个季度各指标的具体数值,然后通过 多元回归所得方程,预测 21 年 4 个季度的 GDP 具体数值。
项目结果
多元回归方程:y= − 0.3478 − 0.08548x 2+1.579 × 10 −7 x 10 +4.653 × 10 −5 x 14+1.565 × 10 −5 x15+1.156x 19
结合对各指标的预测值,计算出不同候选人当 选对经济的影响:
可以看到,两位候选人的当选都会对美国经济有一定的提升,但拜登的当选无疑提升更大, 因此可以估计,拜登有更大的可能赢得此次大 选。评估效果不能只看经济影响,要综合考虑, 需要参考不同候选人的具体政策带来的影响, 以及不同党派不同群体对两位候选人的不同 态度。因此预测结果仅作为参考。
关于作者
在此对Yuanchang Luo对本文所作的贡献表示诚挚感谢,他专长数据挖掘、数据分析、机器学习等。
点击文末“阅读原文”
了解更多。
本文选自《R语言多元线性回归、ARIMA分析美国不同候选人对经济GDP时间序列影响》。
点击标题查阅往期内容