如何像数学系同学那样入门概率论？-技术圈

抽象是隐藏无关紧要的内容，而只关注重要的细节。尽管有时看起来有点可怕，却是掌控复杂性的最佳工具。

如果你让 n 个数学家来定义数学到底是什么，你可能会得到 2n 个不同答案。在我看来，它将事物抽象化到只剩下核心要素，并为推理任何事物提供了最终的框架。

回到主题，你有没有想过概率到底是什么呢？你肯定已经使用过它来推理数据，进行统计分析，甚至通过统计学习来构建算法进行推理。在这篇文章中，我们将深入这个奇特的世界，并且认真仔细地去思考和探索概率论。

1预备知识

大家不需要任何高等数学知识就能继续读下去，本文会从头开始解释一切。不过，如果知道以下知识就更轻松了，

集合以及求并集、交集和差的运算。
极限的概念以及一些基本的微积分。

2集合和测度

我们可以直观地将概率看成一个函数，测量一个事件发生的可能性。但从数学上说，目前还不清楚什么是事件和测度。在正确讨论概率之前，我们需要先打下坚实的基础。那么，就让我们从事件开始。

Ξ事件

"用这个骰子掷出的数字是奇数的概率是多少?"

当我们谈到概率的时候，脑海中就会显现这个例子。在这个简单问题中，事件就是掷出的点子是一个奇数。下面我们使用集合论来建立数学模型。

首先，包含实验结果的基本集是，而事件就是的一个子集。在这里，掷出一个奇数对应于子集。

因此，要定义概率，首先需要一个基本集及其子集的集合，我们将其称为事件集。但是请注意，并不是的任意子集的集合都能构成。

必须满足三个条件。

1、基本集是一个事件。
2、如果是一个事件，则它的补集也是一个事件。比如上面例子，掷出的不是奇数也是一个事件。
3、事件的并集也是事件。也就是说，(事件或另一个事件)也是一个事件。换句话说，对求并运算是封闭的。比如（掷出 1 或者 掷出 6）是一个事件。

如果满足这些条件，则被称为 -代数。用数学术语来说，

1、
2、
3、

看上面这个例子，可以有，

\begin{array}{l} \Omega=\{1,2,3,4,5,6\}, \\ \Sigma=2^{\Omega} \end{array}

其中，表示集合的幂集，即由集合所有子集构成的集族。

那么问题来了，有了基本集，事件集怎么取才合法呢？我们再举一个例子来解释一下。不管是玩麻将还是玩大富翁，骰子总掷过吧，它的结果就是 1 到 6 这六个数字之一。注意，它不会同时是两个数字，比如既是 1 又是 6，这种情况不会发生。因为我只是颗骰子，

不是量子，

比如你现在并不是拿它玩麻将或者游戏，而是每次出门前让它给你算一卦。什么，骰子也能算卦吗？可以的，比如你的幸运数字是。

那么，只要它掷出的是这两个数字之一，就表示一个幸运事件，意味着出门会有好事找你。如果不是这两个数字呢，自然是另外四个数字之一，说明不会有好事找你，当然也不是说一定是坏事找你，总之，称为非幸运事件。

用上面的数学语言来说，是一个事件。当然，它只是的一个元素，非幸运事件对应的子集是的补集，它也是有可能发生的，因此也应该属于。这个情况下，事件集就是，

\Sigma = \{\Omega,\emptyset,\{1,6\},\{2,3,4,5\}\}

这里基本集也是个事件，表示幸运或者非幸运事件，意味着总会发生点事情，不管好事还是非好事。可以看到，虽然有六个数字，但我们将它们分成了两组，毕竟掷出 1 和掷出 6 是同一个性质的。因此，事件集不一定是基本集的幂集，可以是幂集的子集，它的具体元素取决于我们考虑的问题。

总结一下，事件对应一个子集，事件集是由一系列子集构成的集合，只是必须满足上面三条，在一定运算规则下封闭意味着事件可以通过运算组成新的事件，并且这个新事件仍然在这个事件集里面。

打个不恰当的比方，基本集相当于规定了各种原子，原子可以构建各种物质，物质之间可以组合成新物质，事件就相当于物质。

另外，当是实数集时，会出现一个更有趣的情况。稍后我们将看到，如果所有实数子集都被视为事件，那么可能会有非常奇怪的事情发生。

Ξσ-代数

我们用 -代数定义的这些事件空间是很难描述的。可以马上看到，为了在非平凡的基本集上拥有有意义的事件空间，我们应该有无限数量的事件。例如，我们在板上射击子弹，并希望计算击中某个区域的概率。在这种情况下，指定一些子集并采用包含这些子集的最小 -代数就足够了。

假设要在矩形板上射击，如果说事件空间是包含所有矩形子集的最小 -代数的话，那么

1、对 -代数有了一个比较简单的描述。
2、将包含各种形状，因为 -代数在并集下是封闭的。

如下所示，很多集合就可以描述为无限个矩形区域的并集，即可以用矩形通过求并集运算组装出各种形状。

我们将板内部的矩形集称为生成集，而将最小的 -代数称为生成 -代数。

你可以将这一生成过程视为采用生成集中的元素以及并集和补集运算来生成所有子集。

现在我们有了一个数学框架来处理事件，下面将把注意力转移到测度上。

Ξ测度

尽管直观上很清楚，但是要正确地将其形式化是非常困难的。测度其实就是将集合映射成数字的一个函数。考虑一个简单的例子，测量三维物体的体积，这似乎很简单，但是仍然会有严重的问题。

可以证明，如果空间的每个子集都有一个明确定义的体积，你可以将一个三维实心球分成有限个部分，然后仅仅旋转和平移到其他地方重新组合起来，可以组成半径和原来相同的两个完整的球。这称为 Banach-Tarski 悖论。由于你实际上无法做到这一点，因此你无法测量空间中每个子集的体积。

有兴趣的童鞋可以看看类似这种视频^[1]更加直观地了解一下。但如果你不是数学系的，也不用太纠结于 Banach-Tarski 悖论或者定理到底怎么回事，你只要知道它的重要意义在于让人们意识到有些子集是不可测的。

那么在这种情况下，测度到底是什么呢？我们不直接从集合的测度是多少来定义，而是从测度应该具有的性质来入手。实际上，我们只有三个要求，

测度应该是正的；
空集的测度应为 0；
两个不相交的集合的测度之和，应该等于它们并集的测度。

为了正确定义它们，我们需要一个基本集和一个子集的 -代数。

函数

\mu: \Sigma \rightarrow [0, \infty)

是测度，如果它满足，

1、对于所有，有
2、
3、如果是两两不相交的，则有

\mu\left(\cup_{n=1}^{\infty} E_{n}\right)=\sum_{n=1}^{\infty} \mu\left(E_{n}\right)

其中，特性 3 称为 -可加性。如果我们只有有限数量的集合，则将其简称为测度的可加性。

这个定义貌似有些抽象，但其实是对体积的一种推广。这可能看起来有点奇怪，但这三个属性是最重要的，其它一切都来自它们。例如，我们有

\mu(A\verb|\|B) = \mu(A) - \mu(B), \quad B \subseteq A

这是因为和不相交，并且它们的并集是。

另一个重要特性是测度的连续性，即

1、如果，则有

\mu\left(\cup_{k=1}^{\infty} E_{k}\right)=\lim _{n \rightarrow \infty} \mu\left(\cup_{k=1}^{n} E_{k}\right) \quad

2、如果，则有

\mu\left(\cap_{k=1}^{\infty} E_{k}\right)=\lim _{n \rightarrow \infty} \mu\left(\cap_{k=1}^{n} E_{k}\right) \quad

该属性与实值函数的连续性定义类似。

正如上面对于 -代数的处理，你只需要给出一个生成集即可，而不是整个 -代数。这在处理测度时同样也是有用的。尽管测度是要在 -代数上定义的，但 -可加性可以决定 -代数的每个元素上的测度，因此我们只要在生成子集上定义测度即可。

3概率的定义

现在，以数学方式定义概率的准备工作已经到位。

所谓的概率空间是由一个三元组定义的，其中是基本集，是其子集的 -代数，而是使得的测度。

因此，概率与面积和体积之类的量密切相关。面积、体积和概率都是它们自己空间上的测度。但是，这是一个非常抽象的概念，因此我们举几个例子来进一步解释。

Ξ抛硬币

最简单的概率空间由抛硬币事件来描述。假设我们用 0 表示正面朝上和用 1 表示反面朝上。

\begin{aligned} \Omega &=\{0,1\} \\ \Sigma &=\{\emptyset,\{0\},\{1\},\{0,1\}\} \\ P(\{0\}) &=P(\{1\})=\frac{1}{2} \\ \end{aligned}

由于 -代数和测度的性质，只需要定义事件和事件的测度，就完全确定了概率测度。

Ξ随机数字

一个更有趣的示例与随机数生成有关。如果你熟悉 Python，则可能使用了 random.random() 函数，该函数为你提供 0 到 1 之间的随机数。尽管这看起来很神秘，但用概率空间来描述它非常简单。

\begin{aligned} \Omega &=[0,1] \\ \Sigma&= \sigma(\{(a, b]: 0 \leq a, b \leq 1\}) \\ P((a, b])&= b-a \end{aligned}

再次注意，只要给出生成集元素的概率就足以。例如，我们有

\begin{aligned} P((0,0.2] \cup(0.7,1]) &=P((0,0.2])+P((0.7,1]) \\ &=0.5 \end{aligned}

要看一个更复杂的示例，是什么？我们如何计算随机产生 0.5（或 0 到 1 之间的任何其他数字）这个数字的概率呢？为此，我们需要依赖测度的属性。我们有，

\begin{aligned} 0 \leq P(\{0.5\}) \leq & P(\{0.5\})+P((0.5-\varepsilon, 0.5)) \\ &=P((0.5-\varepsilon, 0.5]) \\ \end{aligned}

其中对于所有都成立。这里，我们使用了概率测度的可加性。因此，

\begin{aligned} 0 \leq P(\{0.5\}) & \leq \varepsilon. \end{aligned}

同样，因为它对所有都成立。这意味着该概率小于任何正实数，因此它必须为 0。

任何都能得到相同的结果。令人惊讶的是，随机生成一个特定数字的概率为 0。

可见，概率为 0 的事件也是会发生的。

4分布和密度

我们走了很长一段路。但是，从实际的角度来看，使用测度和 -代数并不方便。幸运的是，这不是处理概率的唯一方法。

为了简单起见，假设我们的基本集是实数集。具体来说，我们有概率空间，其中

\begin{array}{l} \Omega=\mathbb{R} \\ \Sigma=\sigma(\{(a, b]: a, b \in \mathbb{R}\}) \end{array}

是该空间上的任何概率测度。之前我们已经看到，事件的概率决定了事件空间中其余事件的概率。但是，我们可以进一步压缩该信息。实际上，函数

F(x)=P((-\infty, x]), \quad x \in \mathbb{R}

包含我们必须了解的有关概率测度的所有信息。考虑一下，我们有

\begin{aligned} P((a, b]) &=P((-\infty, b])-P((-\infty, a]) \\ &=F(b)-F(a) \end{aligned}

对于所有和。这称为的分布函数。对于所有概率测度，分布函数满足以下属性，

1、对于所有，有
2、如果，则有
3、和
4、

第 4 点称为左连续性。如果不熟悉连续性的定义，这里不管它也没关系，它现在不是必需的。同样，如果这太抽象了，我们来看一个例子。对于前面的随机数生成示例，我们有

F(x)=\left\{\begin{array}{ll} 0 & \text { for } x<0 \\ x & \text { for } 0 \leq x \leq 1 \\ 1 & \text { for } x>1 \end{array}\right.

这称为上的均匀分布。

总而言之，如果你给我一个概率测度，我将给你一个描述概率测度的分布函数。然而，这并不是分布函数的最佳妙处。从数学的角度来看，如果你给出的函数满足上面 4 条，那么我也可以从中构造出概率测度。而且，如果两个分布函数在任何地方都相等，那么它们对应的概率测度也相同。因此，从数学角度来看，分布函数和概率测度在某些情况下是相同的。这点非常有用。

Ξ密度函数

如我们所见，分布函数从概率测度中获取所有信息，并从本质上对其进行压缩。这是一个很棒的工具，但有时并不方便。例如，当我们只有分布函数时，很难计算期望值。

在实际中，我们往往用密度函数来描述概率测度。函数，

f: \mathbb{R} \rightarrow \mathbb{R}

是概率测度的密度函数，如果 -代数中的所有都能满足

P(E)=\int_{E} f(x) d x, \quad E \in \Sigma.

直观地说，给定集合的概率由曲线下的面积确定。这个定义似乎很简单，但是这里隐藏了许多细节，我不再赘述。例如，如何在任意集合上对一个函数积分并非易事。

你可能对微积分中著名的牛顿-莱伯尼兹公式很熟悉。在这里，

\begin{aligned} \int_{a}^{b} f(x) d x &=P((a, b]) \\ &=F(b)-F(a) \end{aligned}

基本上意味着，如果分布函数是可微的，则其导数就是密度函数。然而对于某些概率分布，只有密度函数能以封闭形式表示。（具有封闭形式意味着可以用有限个标准运算和基本函数表示它。）最著名的分布之一就是高斯分布。它的定义为，

f(x)=\frac{1}{\sigma \sqrt{2 \pi}} e^{-\frac{(x-\mu)^{2}}{2 \sigma^{2}}}

其中，和是参数。

我们无法以封闭形式表示高斯分布函数，这个多少有点令人惊讶。但并不是数学家们还没有算出来，而是证明了这是不可能的。有时，数学上证明不可能的事情也是很难的。

5然后呢？

到目前为止，我们仅仅是比较数学地定义了概率，所看到的只是冰山一角。

⟳参考资料⟲

[1]

分球悖论: https://www.bilibili.com/video/av2674104/

[2]

σ-algebra: https://en.wikipedia.org/wiki/%CE%A3-algebra

[3]

Tivadar Danka: https://towardsdatascience.com/the-mathematical-foundations-of-probability-beb8d8426651