推荐 | 统计学权威盘点过去50年最重要的统计学思想,因果推理、bootstrap等上榜,Judea Pearl点赞
来源:AI科技评论 本文约10000字,建议阅读20分钟 本文为你介绍图灵奖得主、“贝叶斯网络之父”Judea Pearl的新论文:过去50年中最重要的统计思想是什么?
1 过去50年最重要的统计思想
1.1 反事实因果推理
1.2 bootstrap与基于模拟的推理
1.3 过参数化模型和正则化
1.4 多层模型
1.5 泛型计算方法
1.6 自适应决策分析
1.7 鲁棒的推理
1.8 探索性数据分析
2 相同点与不同点
2.1 思想能产生方法与工作流程
反事实机制将因果推理置于统计或预测的框架中,其中,因果估量(causal estimands)可以根据统计模型中未观察到的数据精确定义和表达,并与调查抽样和缺失数据推算的思想联系起来。
Boostrap 打开了隐式非参数建模(implicit nonparametric modeling)的大门。
过参数化的模型和正则化基于从数据中估计模型参数的能力,将限制模型大小的现有做法形式化和泛化,这与交叉验证和信息标准有关。
多层模型将从数据估计先验分布的“经验贝叶斯”技术形式化,使这种方法在类别更广泛的问题中使用时具备更高的计算与推理稳定性。
泛型计算算法使实践者能够快速拟合用于因果推理、多层次分析、强化学习和其他许多领域的高级模型,使核心思想在统计学和机器学习中产生更广泛的影响。
自适应决策分析将最佳控制的工程问题与统计学习领域联系在一起,远远超出了经典的实验设计。
鲁棒推理将对推理稳定性的直觉形式化,在表达这些问题时可以对不同程序进行正式评估和建模,以处理对异常值和模型错误说明的潜在担忧。此外,鲁棒推理的思想也为非参数估计提供了信息。
探索性数据分析使图形技术和发现成为统计实践的主流,因为这些工具正好可以用于更好地理解和诊断正在与数据进行拟合的概率模型的新型复杂类别。
2.2. 计算上的进步
一些思想(boostrapping,超参数化模型和机器学习元分析)直接利用了计算速度,这在计算机出现之前难以想象。例如,直到引入高效的GPU卡和云计算之后,神经网络才更加流行起来。
除了计算能力以外,计算资源的分散也很重要:台式计算机能让统计学家和计算机科学家尝试新方法,然后由从业人员使用这些新方法。
探索性数据分析最初是从纸笔图形开始,但随着计算机图形学的发展,探索性数据分析已经历彻底改变。
过去,贝叶斯推理仅限于可以通过分析解决的简单模型。随着计算能力的提高,变分和马尔可夫链模拟方法使得模型构建和推理算法开发的分离成为可能,概率编程也因此允许不同领域的专家能够专注于模型构建并自动完成推理。这导致了贝叶斯方法在1990年开始在许多应用领域变得普及。
自适应决策分析,贝叶斯优化和在线学习应用于计算和数据密集型问题,例如优化大型机器学习和神经网络模型,实时图像处理和自然语言处理。
鲁棒的统计学不一定需要大量计算,但它的使用在一定程度上由计算驱动,与封闭式估计(如最小二乘法)有所区别。Andrews等人曾使用大量计算进行了一项模拟研究,促进了对鲁棒方法的开发和理解。
减少多元推理的合理性不仅可以通过统计效率来证明,还可以从计算层面证明:激发了一种新的渐近理论。
反事实因果推理的关键思想与理论相关,而不是计算相关。但是,近年来,因果推理在使用计算密集的非参数方法后已有了发展,促进了统计学、经济学和机器学习中因果和预测模型的统一。
2.3 大数据
反事实框架允许使用用于对受控实验建模的相同结构从观测数据中进行因果推断。
Bootstrapping 可用于纠正偏差,与在分析计算无法进行的复杂调查、实验设计和其他数据结构上进行方差估计。
正则化允许用户在模型中加入更多预测变量,而不必担心过度拟合。
多层模型使用部分汇集来合并来源不同的信息,从而更广泛应用元分析的原理。
泛型计算算法允许用户拟合更大的模型,这对将可用数据连接到重要的基本问题来说可能是有必要的。
自适应决策分析利用在数值分析中开发的随机优化方法。
鲁棒推理可以更常规地使用具有异常值、相关性和其他可能阻碍常规统计建模的数据。
探索性数据分析为复杂数据集的可视化打开了大门,并推动了整洁数据分析(tidy data analysis)的发展,以及统计分析、计算和通信的集成。