统计学神书之后,国内概率论教材的天花板来了!

机器学习算法与Python实战

共 6973字,需浏览 14分钟

 ·

2024-07-10 11:27


统计学神书,中文版,来了


2009年,图灵出版了著名数学物理学家,圣路易斯华盛顿大学和斯坦福大学教授,统计力学和概率统计推断方面权威埃德温·汤普森·杰恩斯的最重要的代表作《概率论沉思录》的英文版。


引来众多数学专业人士的交口称赞,至今保持着豆瓣9.4的高分。被称为“一本至今尚无中译本的神书”。而现在,这本著作的中文版,终于在本科毕业于清华大学物理系,并在北京大学获得空间物理学硕士学位的廖海仁的努力翻译下正式出版了!


概率论作为逻辑的延伸,是所有科学推断的基础。本书收集了概率统计的各种线索,将概率和统计推断融合在一起,用新的观点生动地描述了概率论在物理学、数学、经济学、化学和生物学等领域中的广泛应用,尤其是阐述了贝叶斯理论的丰富应用,弥补了传统概率论和统计学的不足,并揭开了众多悖论背后的玄机。


《概率论沉思录》既是一本数学书,也是一本科学哲学书,还可以被看作一本逻辑学书,甚至一本生活智慧书,可以帮助我们更好地认识这个世界并且更好地生活。本书专注于概念的详尽解释,提供大量生活实例和常识的解读,也讲述了概率统计的历史脉络和广泛应用。

来源 | 《概率论沉思录》


历史

本书是我的思想多年演化的产物.我对概率论的兴趣最初来自阅读哈罗德·杰弗里斯的著作(Harold Jeffreys1939).我意识到他的观点能让我们以一种与众不同的视角看待理论物理学的所有问题.随后,考克斯(R. T. Cox1946)、香农(Shannon1948)和波利亚(Pólya1954)的著作陆续为我开启了新思想的一扇扇大门.

我对这些探索的兴趣持续了大约 40 年之久.在这个更加广阔、永恒的理性思维世界中,理论物理学的当前问题似乎只是短期内的细枝末节.

本书的写作其实源于 1956 年在斯坦福大学举办的一系列讲座的笔记.这些讲座的目的是讲解波利亚关于“数学与合情推理”的令人振奋的新著作.他将我们直观的“常识”分解为一组基本的定性条件,并且表明:数学家一直在使用它们来引导发现的过程,而且这种引导必然发生在找到严格证明之前.

这些结果很像詹姆斯·伯努利的《猜度术》(James Bernoulli,1713)中古典概率论的内容,在它的基础上,拉普拉斯在 18 世纪晚期发展出了分析概率论.但是波利亚认为这种相似性只是定性的.

波利亚对这种定性一致性做出了完整而详尽的展示,说明合情推理与概率论之间一定存在更多联系.幸运的是,应用考克斯的一致性定理足以证明这一点.将波利亚的定性条件与考克斯的一致性定理结合起来就能证明:如果合情程度由实数表示,那么只能确定唯一一套用于推断的定量规则.也就是说,与其矛盾的任何其他规则都必然会违反一条基本的合理性条件或者一致性原则.

但是,最终结果只是丹尼尔·伯努利和拉普拉斯已经得出的概率论的标准规则.那又有什么值得大惊小怪的呢?这里重要的新特征是:这些规则现在被视为唯一有效的一般性逻辑原则,不涉及“偶然性”或“随机变量”.

因此,它们的应用范围远远大于 20 世纪早期发展起来的传统概率论.结果就是,“概率论”与“统计推断”之间的假想区别消失了,该领域不仅实现了逻辑上的统一性和简单性,而且在应用中有更强的效力与灵活性.

因此,这些讲座把重点放在推演波利亚观点的定量规则上,以便将该规则用于科学推断的一般性问题.几乎所有的推断问题都产生于不完全的信息,而非“随机性”.第 5 章将介绍波利亚的生平及这项工作是如何开始的.

一旦涉及应用,哈罗德·杰弗里斯的著作就又成为我关注的焦点.他凭着直觉获得了许多洞见,并且几乎预见了我后来遇到的每一个问题.本书的献词只是我对他的感激之情的部分体现.对他著作的更多评论及其对我的影响分散在多个章节中.

1957~1970 年,这些讲座不断在其他许多大学和研究实验室举办,内容不断增加.在这一过程中,人们逐渐明白,传统的“统计推断”的突出困难很容易被理解和克服.但是,取而代之的规则在概念上非常微妙,需要深入思考才能明白如何正确运用.

人们过去认为运用拉普拉斯的概率论方法会导致某些不可克服的困难,从而拒绝这些方法.他们最终明白这些困难只是由误用概率论方法造成的,通常是因为没有明确地定义问题或者没有意识到看似微不足道的信息存在重要的影响.一旦意识到这一点,原先的困难就很容易被克服.我们的“扩展逻辑”方法与通常的“随机变量”方法之间的各种关系以不同的形式出现在几乎每一章中.

最终,我积累的材料多到无法被囊括在一系列简短的讲座中,本书的用途也演化到了教学之外.在克服原有困难之后,我们发现已经有了处理新问题的强大工具.大约自 1970 年以来,材料一直在以同样的速度增加,但是主要来自我及同事的研究活动.我们希望本书的最终版本能体现材料来源的多样性,既可用作教科书,也可用作参考书.事实上,我的好几批学生已经把早期几个版本的笔记传授给了他们的学生.

综上所述,我们在这里引用查尔斯·达尔文在《物种起源》绪论中所写的话:“我希望读者原谅我赘述这些个人的细枝末节,我只是想借此说明,我未曾仓促立论而已.”

人们可能会认为 30 年前的著作在今天已经过时了.幸运的是,杰弗里斯、波利亚和考克斯的著作是基础性且永恒的,其中的真理并不随着时间而改变,其重要性反而会随着时间的推移而上升.他们对于推断本质的洞察在 30 年前只是令人好奇,而今在几个科学领域中愈显重要,并会在未来 100 年的所有领域中都至关重要.

基础

凭借多年将概率论应用于数以百计实际问题的经验,我们对概率论基础的看法已经变得非常复杂,不能简单地使用“是此非彼”这样的词语来表述.比如,我们的概率系统在风格、哲学和目标上都与柯尔莫哥洛夫系统截然不同.我们认为“通过分析不完全信息的逻辑来分配概率的原则”在概率论中占至少一半的比重,而这一原则在柯尔莫哥洛夫系统中根本不存在.

我们最终却惊讶地发现,我们几乎在所有技术问题上都与柯尔莫哥洛夫一致,与其批评者不一致.正如附录 A 所述,针对所有实际目标,柯尔莫哥洛夫系统的每个公理都可以从波利亚和考克斯的合理性和一致性条件中导出.简而言之,我们认为我们的概率系统与柯尔莫哥洛夫系统并不矛盾,只是在寻求更深厚的逻辑基础,使其朝着现代应用所需要的方向扩展.在这一努力过程中,许多问题已经解决,那些尚未解决的问题将成为开拓新领域的契机.

又比如,似乎每个人乍一看都认为我们的系统与德菲内蒂概率系统非常接近.事实上我也曾这样认为.但是最终我们同样惊讶地发现,两者之间只存在些许松散的哲学一致性.在许多技术问题上,我们与德菲内蒂持截然不同的观点.在我们看来,他对于无限集合的处理方式打开了一个潘多拉魔盒,其中充满无用、不必要的悖论.非聚集性与有限可加性的示例将在第 15 章中讨论.

无限集合的悖论如今已呈病态式扩散,以致威胁到概率论的根基,需要立即通过“手术”剔除.我们的系统在“手术”后会自动避免这种悖论.正确应用我们的基本规则不会产生这种悖论,因为这些规则只适用于有限集合,以及产生于有明确定义和良好表现的有限集合极限的无限集合.这种悖论的产生是由于:(1) 不指定任何极限过程就直接定义无限集合的性质;(2) 对于无限集合提出依赖于如何取极限的问题.

例如,对于“一个整数是偶数的概率是多少”这个问题,答案可以是开区间 (0, 1) 中的任何一个实数.这取决于使用什么极限过程来定义“所有整数的集合”(正如条件收敛的数列可以根据各项的排列顺序收敛到任一数值).

在我们看来,至少在概率论中,无限集合根本不能说真实“存在”或者说拥有任何数学性质——除非我们已经指定了从有限集合生成它的极限过程.换句话说,我们在高斯、克罗内克和庞加莱的旗帜下航行,而不是在康托尔、希尔伯特和布尔巴基的旗帜下.我们希望那些对此感到震惊的读者能研读数学家莫里斯·克莱因的著作(Morris Kline,1980),了解他对布尔巴基主义的控诉,然后耐心地阅读本书,从而看到我们的方法的优势.这种例子散见于本书的每一章.

比较

许多年来,一直存在着“频率派”与“贝叶斯”推断方法之争,而我一直是贝叶斯一方的公开支持者.截至 1981 年的情况记录在早期的一本书(Jaynes,1983)中.在这类早期的著作中,双方都有一种强烈的倾向,就是在哲学或意识形态层面进行争论.我们现在不再这样做了,因为我们拥有已证明的定理以及大量示例,已经不再需要诉诸这样的论证.

贝叶斯方法的优越性现已在上百个领域中得到充分验证.人们可以与哲学争论,却不能与计算机的输出结果争论.这种输出结果对我们说:“无论你们的哲学如何,这是实际执行的结果.”只要两种方法的最终结果存在显著差异,我们就会在书中详细指出.

因此,我们将继续为贝叶斯方法热情辩护,但需要提醒读者注意的是,现在的论证手段是引用事实,而不是宣称哲学或意识形态方面的优越性.

然而,无论是贝叶斯方法还是频率派方法,都不是普遍适用的.因此,在这本一般性的著作中,我们采用一种更广阔的视角.我们的主题很简单:作为扩展逻辑的概率论.这一新的认知相当于意识到概率论的数学规则不仅仅是计算“随机变量”频率的规则,它们也是进行任何形式的推断(即合情推理)的唯一一致性规则,必须得到广泛的应用.

确实,所有贝叶斯计算方法都自动归属于我们规则的特殊情况,所有频率派计算方法也是如此.然而,我们的基本规则比这两者中的任何一个都更广泛.在许多应用中,我们的计算方法不属于两种派别中任何一派的范畴.

我们目前看到的情况是:只使用抽样分布的传统的频率派方法只对许多特别简单、理想化的问题适用.它们代表了概率论中最少见的特殊情形,因为它们预先假设了在实际问题中很难满足的条件(独立重复随机试验,但没有相关的先验信息).这种方法难以满足科学的实际需求.

此外,频率派方法没有提供消除冗余参数或考虑先验信息的技术手段,在没有充分统计量或从属统计量时甚至不能使用数据中的所有信息.由于缺乏必要的理论原则,人们被迫根据直觉而不是概率论选择一个统计量,然后被迫发明了在概率论规则中并不存在的特定工具(如无偏估计、置信区间、尾区显著性检验等).每个特定工具都可以在它所为之发明的小范围内使用.但是,正如考克斯定理所确定的那样,这种随意的工具在应用于极端情况时总会导致不一致甚至荒谬的结论.我们将看到许多这样的示例.

频率派方法的这些错误都可以使用贝叶斯方法纠正,贝叶斯方法适于解决“完善”(well-developed)的推断问题.正如哈罗德·杰弗里斯阐明的那样,它们拥有一流的分析工具,能够毫不费力地处理令频率派方法失效的技术难题.它们能自动确定最佳估计量和算法,同时考虑先验信息,并允许合理使用冗余参数,即使在极端的情况下也会继续产生合情的结果而不会失效.因此,它们使我们能够解决甚至无法使用频率派术语讨论的复杂问题.我们的主要目标之一是说明所有这些功能如何包含在作为扩展逻辑的概率论的简单规则之中,而不需要——事实上也没有空间——使用任何特定工具.

在使用贝叶斯方法之前,一个问题必须从“探索阶段”演化到具有足够的结构来确定所有需要的工具(模型、样本空间、假设空间、先验概率、抽样分布).几乎所有的科学问题都一定会经历一个有推断需求的初始探索阶段.这时,频率派的假设是无效的,而贝叶斯工具还不可用.实际上,某些问题永远不会从探索阶段演化到下一步.这个阶段的问题需要从不完全的信息中分配概率的更基础方法.

为达到这一目标,最大熵原理提供了目前最清晰的理论依据.最大熵方法在计算上高度发展,也带有一个与贝叶斯方法一样强大且通用的分析工具.为了使用最大熵原理,我们必须定义样本空间,但不需要模型或抽样分布.实际上,熵最大化会从数据中为我们生成一个模型.这个模型在许多不同的标准评估下都是最优的.因此,在存在样本空间而没有模型的情况下使用最大熵原理,何乐而不为呢?

贝叶斯和最大熵方法在另一个方面也有不同.两种方法都能根据已知信息获得最优的推断,但是我们可以为贝叶斯方法选择一个模型,以表达某些关于所观察现象的先验知识或者可行的假设.通常,这种假设超出了数据中可直接观察的范围,在这种意义上,我们可以说贝叶斯方法是(或者至少可能是)推测性的.如果额外的假设是正确的,那么我们期望贝叶斯方法的结果将改进最大熵方法;果额外假设是错误的,贝叶斯推断则可能会比最大熵方法更糟.

最大熵是一种非推测性过程,因为它在样本空间和可用数据的证据之外不做任何假设.因此,它只预测可观测的事实(未来或过去的观测值的函数)而不是可能只在我们的想象中存在的参数值.正是出于这一原因,当我们对原始数据之外的知识所知甚少时,最大熵是适当的(最安全的)工具.它可以使我们避免得出基于数据本身无法保证的结论.但是,当信息非常模糊,甚至可能难以定义适当的样本空间时,人们能否找到比最大熵更基础的原理呢?这里还有很多运用创造性思维的空间.

目前,在许多重要且非凡的应用实例中,最大熵是我们需要的唯一工具.本书的第二部分将详细探讨这些内容.通常,它们比第一部分的一般性应用需要更多的领域内专业知识.例如,所有的统计力学应用都是如此,当前非常成功的最大熵谱分析和图像重建算法也是如此.然而,我们认为,当知道合适的模型和假设空间从而能融入更多先验信息时,后两种应用将演变为适合使用贝叶斯方法的情况.

最后,在能力与通用性方面,学会使用作为扩展逻辑的概率论的科学家比仅掌握了一堆无关的特定工具的人具有更大的优势.随着问题复杂性的增加,这种相对优势也会扩大.因此,我们认为,由于实际需要,未来所有定量科学的工作者都会以本书阐明的方式使用概率论.这一趋势已经在计量经济学、天文学、磁共振波谱学等领域中得到了证实.要在一个新的领域中取得进展,就需要对传统和权威持一种健康的怀疑与批判态度,这种传统和权威在整个 20 世纪都阻碍了我们的进步.

推荐阅读

《概率论沉思录》

作者:埃德温·汤普森·杰恩斯   译者:廖海仁

著名数学物理学家,圣路易斯华盛顿大学和斯坦福大学教授,统计力学和概率统计推断方面权谋埃德温·汤普森·杰恩斯,40年思想著作;


无数读者苦等15年的概率论神作,英文版豆瓣评分9.4高分;


概率论作为逻辑的延伸,是所有科学推断的基础。本书收集了概率统计的各种线索,将概率和统计推断融合在一起,用新的观点生动地描述了概率论在物理学、数学、经济学、化学和生物学等领域中的广泛应用,尤其是阐述了贝叶斯理论的丰富应用,弥补了传统概率论和统计学的不足,并揭开了众多悖论背后的玄机。


02

《贝叶斯的博弈:数学、思维与人工智能》

法国数学类科普书、大学数学参考及教材类图书畅销书目,在机器学习、人工智能、逻辑学和哲学等众多领域中,探索贝叶斯定理蕴藏的智慧与哲理。


贝叶斯定理一旦与算法相结合,就不再是一套枯燥的数学理论或认识论,而变成了应用广泛的知识宝库,催生了众多现代数学定理,以及令人称道的实践成果。

03


《趣学贝叶斯统计:橡皮鸭、乐高和星球大战中的统计学》

本书用十余个趣味十足、脑洞大开的例子,将贝叶斯统计的原理和用途娓娓道来。你将从直觉出发,自然而然地习得数学思维。读完本书,你会发现自己开始从概率角度思考每一个问题,并能坦然面对不确定性,做出更好的决策。

大模型最新情报

Pandas 加速150倍!

用机器学习来优化人生

我“参加了”阿里巴巴全球数学竞赛决赛,分享一下经验

搭建机器学习开发环境及Python基础,108页PDF

116页PDF小册子:机器学习中的概率论、统计学、线性代数

浏览 86
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报