陈希孺院士带来开年第一本数学书,让人看完大呼过瘾的统计学科普读本

机器学习算法与Python实战

共 5017字,需浏览 11分钟

 ·

2022-02-26 23:00








↑↑↑点击上方蓝字,回复资料,10个G的惊喜
-

我们在生活中不时地要与偶然性打交道。不期而遇的偶然机会,可以帮助人们渡过难关,也可能使人陷入困境,甚至决定一个人一生的命运。至于偶然性因素影响重大事件进程的例子,在历史与现实中屡见不鲜。

偶然性看似不可捉摸,它能否成为科学研究的对象呢?

我们说在一定程度上是可以的。之所以说“在一定程度上”,是因为这反映了我们知识的局限性。

的确,我们现在不能说已成功地将偶然性的极其多样化的表现都纳入科学研究的范围,而只能说有部分的成功。但这已有了广泛的应用,对增进人类文明和幸福做出了重要的贡献。

我们所提到的这部分成功,所指的是偶然性的数量化。偶然性,或者说机遇,随情况的不同而有大有小,这是人所共知的。

但如何把它用确切的数字体现出来,尤其是,这样做会引发出什么概念和理论问题,有什么用处等,就不是很容易理解的了。

机会的数学》一书的目的就是对此做一个通俗而不失科学性的讨论,主要着重于“偶然性”研究在收集和分析数据上的应用

收集和分析数据是用实证方法研究自然和社会的基本方法,也是我们用科学的态度观察和对待世间万事万物的手段,可以说与我们的生活息息相关。

因此,写《机会的数学》这本小书的目的,不是单纯从“工具理性”的层面着眼,而是更着重于基本知识的介绍统计观点的培养。可以认为,对偶然性的认识,是一个现代人知识结构中应具备的成分,是一个人的人文素质的一部分

正如英国学者威尔斯所说:“统计的思维方法,就像读和写的能力一样,将来有一天会成为效率公民的必备能力。”


1.复杂世界中不确定性与规律性


有人说,一个人一生事业的成功,取决于三个因素:主观的努力、客观的条件和机遇

一个青年研究工作者得到名师指点方向,使他的研究工作走上正轨,从此学业日进。这固然有其自己的努力和单位提供的条件等原因,但机遇的作用也不可否认,因为水平高而又热心指导后进的导师虽然不少,但你能不能遇上,也是要看机会的。

打井找石油也是在一定的程度上依赖于机遇,因为地质科学还没有发达到令我们对地表下的情况洞悉无遗,能使我们做到百发百中的地步。

气象预报也一样,虽然现在气象科学的水平大有提高,但离准确预报天气还相差很远。报得准不准,相当程度上是一种机遇,而且有的预报现在就是以机遇的形式去表达的。

例如说,明天的“降水概率”是0.3,即是说明天有30%的机会下雨。到底下不下雨,最终还要取决于一个难于言明的机会。

最能体现机遇作用的事情,是形形色色的博弈活动。后文我们将谈到,对机遇进行数学上的研究起源于博弈活动,此事并非偶然。

买奖券可以中大奖,也可能一无所获,一切全凭机遇,而且是“纯粹”的机遇,与个人的努力无关。

不像打井找油,前期的地质勘探工作做得如何起很大的作用,做得好就能提高成功率,缩小机遇的影响。另外,博弈属于大量重复的活动,而机遇如果有什么规律性可言,也必须在大量重复中才能体现出来。

机遇、机会、偶然性、随机性(随机即随机会而定的意思),在《机会的数学》一书的讨论范围内,有同一的意义,指的是一种在事前没有确实的把握,只能在事后见分晓的情况。

买奖券时对能否中奖是没有把握的,要待开奖后才见分晓。打一口井能否出油,事先有两种可能,要打到一定深度才知道。气象、水文、地震等领域的预报,是突出提示了一种可能性(如今年长江会有或不会有大洪水),究竟如何,要到时候才有答案。

与偶然性相对的是必然性,即事先能确切地预知其结果的情况。例如把水煮到100摄氏度,水就必然会沸腾,这件事你可以确信必将发生而不必亲自动手去试一试。

科学的目的就在于去探讨和发现这种必然的规律性,以指导我们的行动

近几百年以来科学有了很大的进展,使人们认识了很多必然的规律性,用于指导人们的行动,从而大大改善了人类的处境。

但科学上的探索永无止境,总有不少未被充分认识的事物、未充分理解的规律性,因此就总有机遇起作用的余地,这表现为人们行动上的盲目性并不时导致不理想的结果:打井不出油,投资于一个项目导致亏损,个人的勤奋努力未能获得预期的回报,等等。

照这种说法,机遇或偶然性之所以存在,是由于人类的知识的局限性。上帝是洞察一切、无所不知的,在他那里没有偶然性。或如某位科学家所说:“上帝不掷骰子。”

但凡人不是上帝,认知上有许多盲点,做许多事情有“碰碰运气”的成分,因而不能不受机遇的支配。这个解释,从一种“形而下”或现实生活的角度看,是说得通的,并有其启发或警策的意义。

它告诉我们:要减少盲目性(即机遇或偶然性的影响),就得要多增进自己的学识,多参加社会实践,“活到老、学到老”,办事细心考虑周到,多权衡利弊得失等。这方面的努力多一分,偶然性的作用就少一分,事情按照自己期望的方式进展的机会就多一分。

拿投资股市为例。大量的股民有赚有赔,其中不乏众多的、说不清楚的偶然因素。但不可否认,那些对股市运转有较多理论和实践知识,对市场情况有正确的分析并对相关信息有更多了解的人,其成功的机会要大得多。

不论怎么说,机遇(或说偶然性)无所不在,机遇伴随着人的一生(当然随人的情况而有异),这是一个无法回避的现实。因此,出现了以机遇作为研究对象的学科,这就是在本书中要向读者介绍的内容。

有人可能会问:世界上的事情是如此复杂,机遇起作用的方式又是如此多种多样、捉摸不定,你如何以科学的态度去研究它?会不会流于空谈,得不出什么有用的结果?

这问题提得很对。因此,我们首先要告诉读者的是,《机会的数学》一书的目的很有限。我们既不打算从哲学的高度去分析偶然性是怎么一回事,也不可能针对种种具体事情去分析机遇如何起作用,如何避免可能有害的结果和争取有利的结果——每件事情况不同,它所需要的知识和经验也不同,空洞的议论无补于事。

我们的讨论只涉及关于偶然性的这样一个方面:虽说由于偶然性的作用,世上的万事万物呈现出一种无序、不可预测甚至纷乱的形态,但在这纷乱中,仍有一定的规律性可寻

这种规律性不同于“水煮到100摄氏度就会沸腾”这类必然形式的规律性:它“基本上”正确,但容许有一定的误差或例外情况。

例如,“高个子的人体重也较重”,这个说法基本上正确,但不是对每个具体的人都正确。问题在于,身高与体重的关系过于复杂,如果你要求找出一个百分之百确切的规律,那就什么也做不成。

当然,问题不能停留在“基本上正确”这种笼统的、含糊的提法的水平上,而要求对问题中偶然性因素的作用做进一步的探讨,这就涉及本书的主题。

这个主题就是“机遇的数量化”。不同情况下涉及的机遇大小有所不同,这是人人都承认并感受到的事实。但具体到要拿一个数字去精确刻画其大小,问题就完全不同。

事实上,只是对某些类型的情况,我们才有可能做到这一点。这反映了一个事实:迄今我们对“机遇”这个东西的认识,还是很有限的。

但就是我们所了解的这一部分,已有了极其广泛和重要的应用,它影响着人们对世界上万事万物的看法

所以,从非功利的观点看,它应该说是一个人素质教育的一种成分。这也是写作《机会的数学》这本小书的目的所在。

一谈到数量化,就属于数学的研究领域,因此本书的主题也可以简单地概括为“机遇(机会)的数学”,它包含数学中的两个学科分支——概率论和数理统计学。

大体上说,前者属于机遇数量化的理论基础,而后者则是其应用,更细致一点的解释将在《机会的数学》中逐步展开。



2.统计学是什么


在日常用语中,“统计”相当于“计数”。小至一个家庭、单位,大至一个国家,都有许多计数即统计的工作要做。

世界各国大都设立了中央到地方的各级统计机构,负责收集关于人口、经贸、社会等各方面的数据资料。在一定意义上,这种活动可视为“统计学”这门科学的起源。

丹麦统计史学家哈尔德认为,“统计学”和“统计学家”等词源出于意大利,统计学即国情学,对象是国务活动家感兴趣的事实,而统计学家则是“处理国务的人”。在这样广泛的意义下,统计学简直是无所不包了。

经过演变,到19世纪,统计学定位为一门关于收集和分析数据的科学,但不涉及数据所来自的具体学科领域的研究。

例如,一个统计学家可以帮助生物学家处理其工作中涉及的数据收集和分析问题,但统计学并不去研究生物学自身的问题。

用实证的方法研究问题,都要涉及收集数据以及对数据进行整理和分析,统计学就是研究做这些事情的方法和理论的学问。

《不列颠百科全书》对统计学所下的定义是:“统计学是关于收集和分析数据的科学和艺术。”这里特别提到“艺术”一词。当然,统计学是科学,不是像音乐、美术那样属于艺术的范畴。

这个提法有其深意,后面会有机会说明这一点。这个言简意赅的解释,突出了统计学研究对象的两个方面:收集数据,分析数据

收集数据是为了解决某一应用或理论上的问题。但单有一堆杂乱无章的数据,用处不大。我们需要去整理数据,从中发掘有用的信息并用适当的形式表述出来,然后用科学的方法进行分析,以针对所研究的问题得出一定的结论。

按现代的理解,并不是任何类型的数据的收集和分析问题,都属于统计学的研究范围。只有那种受到偶然性因素影响的数据,才是统计学处理的对象。

统计学是有关收集和分析带随机性误差的数据的科学和艺术。分析着重在数量化,而随机性的数量化,是通过概率表现出来的,由此可以看出统计学与概率论的密切关系。

《机会的数学》一书的重点在统计学,却以概率论开篇,就是这个原因。大体上说,二者的关系是:概率论是统计学的理论和方法的依据,而统计学可视为概率论的一种应用


3.统计学方法的有效使用是一门艺术


生产、科技等各个领域无不涉及数据分析问题,所以,有一个统计学与这些领域的界线如何划分的问题,这问题要从两个方面来谈。

首先,统计学是一门数学科学,它既不包含上述领域,也不被这些领域所包含。这与数学一样。

数学是研究“数”和“形”的科学,数和形都在各种应用领域出现,有其实际背景,数学把其中有共性的东西抽象出来加以研究,其结果可用于各种领域。

统计学也如此,各种不同应用领域,其数据内容、形态也各有其特点,但也有其共性的东西,统计学把这些共性的东西抽象为模型,其研究结果可用于各种实际问题。

一个例子是“盒中抽球”的模型,该模型的数据分析可用于像不合格品率的估计、文盲率的估计之类的问题。

另一个例子是上一章介绍的正态分布,它可以用来描述形形色色的、从各种不同的实用领域中产生的数据。

正因为这一点,以研究收集和分析数据为任务的统计学常被称为“数理统计学”,以突出它是一门数学学科这一性质。

另一方面,由于统计学是实用性很强的科学,其生命力和发展动力,在于它与实用学科的密切联系。割断了这种联系,统计学就会变成无源之水,无本之木,产生不出有意义的问题和方法。

因此,统计学与其他学科和领域所形成的边缘和交叉性质的学科也特别多,如工业统计学、农业统计学、生物统计学、医药统计学、可靠性统计与生存分析(研究元件、系统的可靠性与生物寿命的数据分析问题),以及诸如人口统计学、数量经济学(其中用到很多统计学方法)之类的社会科学交叉科学。

从统计学家本身说,为了更有效地将统计学方法应用于某一领域,有必要对该领域有关的知识有一定的了解。

例如参加一个化工方面的应用项目,该采用什么样的统计模型和统计方法,怎样去判断所用模型是否恰当,数据是否有问题,分析的结果该如何解释,这些问题的解决固然需要统计学的知识,但与该问题有关的专业化工知识,也是不可或缺的。

统计学家可以与化工专家合作并向后者请教,但终究不如自己能有第一手的了解更为有利。统计学方法中包含不少的数学公式,但使用统计学方法解决实际问题,并非机械地套用公式了事。

在某种程度上,用统计学方法解决问题好比医生给病人治病。好的医生要根据实际情况灵活地使用他的专业知识,并具备丰富的实践经验。

从这个角度看,虽说不能讲统计学本身是一门艺术,但可以说,在一定程度上,统计学方法的有效使用是一门艺术


本文摘自《机会的数学》,[遇见]已获图灵教育转发授权. 


  1. 准备写本书

  2. 如何评判一个深度学习框架?

  3. 机器学习理论基础到底有多可靠?

  4. 吴恩达最新采访:以数据为中心的AI

  5. 【机器学习基础】优化背后的数学基础

三连在看,月入百万👇

浏览 26
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报