本篇介绍随机变量和概率分布的基本概念，以及有关概率分布的一些简单统计量，它们构成了概率和统计的基础知识。

11 基本概念

当投掷六面骰子时，可能结果有，没有其他结果。这种可能的结果称为样本点，所有样本点的集合称为样本空间。

这里出现了两个东西，样本点及其集合。对，就是用集合语言来描述这些内容。

事件定义为样本空间的一个子集。例如，出现任意奇数点数的事件表示为

A=\{1,3,5\}

没有样本点的事件称为空事件，用表示。仅由一个样本点组成的事件称为基本事件，而由多个样本点组成的事件称为复合事件。包含所有可能样本点的事件称为整个事件。

至少发生了和事件之一的事件称为事件的并集，并用表示。例如，出现奇数的事件与出现小于或等于的事件的并集表示为

A \cup B=\{1,3,5\} \cup\{1,2,3\}=\{1,2,3,5\}

另一方面，事件和同时发生的事件称为事件的交集，用表示。上面的事件和的交集为

A \cap B=\{1,3,5\} \cap\{1,2,3\}=\{1,3\} .

如果事件和永远不会同时发生，即

A \cap B=\emptyset

则和事件称为不相交事件。出现奇数的事件和出现偶数的事件不能同时发生，因此是不相交的。对于和事件，以下分配定律成立：

\begin{array}{l}<br /> (A \cup B) \cap C=(A \cap C) \cup(B \cap C) \\<br /> (A \cap B) \cup C=(A \cup C) \cap(B \cup C)<br /> \end{array}

对照上面公式和下图，回忆一下中学集合论里的文氏图。

由集合的补集概念很容易想到所谓的补事件。样本空间中除去事件中样本点后剩下的样本点构成的事件称为的补事件，用表示。出现奇数的事件的补事件是不出现奇数，即出现偶数。对于事件和的并集和交集，遵循以下德·摩根（De Morgan）定律：

\begin{array}{l}<br /> (A \cup B)^{c}=A^{c} \cap B^{c} \\<br /> (A \cap B)^{c}=A^{c} \cup B^{c} .<br /> \end{array}

22 概率

概率是对事件发生的可能性的度量，而事件发生的概率用表示。俄国数学家科莫哥洛夫（Kolmogorov）通过以下三个公理来定义了概率，而这些公理是对概率显然应该满足的特性的一种抽象。

1.非负性：对于任意事件

0 \leq \operatorname{Pr}\left(A_{i}\right) \leq 1

2.归一性（幺正性）：适用于整个样本空间。

\operatorname{Pr}(\Omega)=1

3.可加性：对于不相交事件的任何可数序列，

\operatorname{Pr}\left(A_{1} \cup A_{2} \cup \cdots\right)=\operatorname{Pr}\left(A_{1}\right)+\operatorname{Pr}\left(A_{2}\right)+\cdots

从上述公理可以看出，事件和满足以下加法法则。

\operatorname{Pr}(A \cup B)=\operatorname{Pr}(A)+\operatorname{Pr}(B)-\operatorname{Pr}(A \cap B)

这同样使用于两个以上的事件：对于和事件，

\begin{aligned}<br /> \operatorname{Pr}(A \cup B \cup C)=& \operatorname{Pr}(A)+\operatorname{Pr}(B)+\operatorname{Pr}(C) \\[0.68em]<br /> &-\operatorname{Pr}(A \cap B)-\operatorname{Pr}(A \cap C)-\operatorname{Pr}(B \cap C) \\[0.68em]<br /> &+\operatorname{Pr}(A \cap B \cap C)<br /> \end{aligned}

投掷骰子示例（离散均匀分布）

33 随机变量和概率分布

如果将概率分配给变量的每个取值，则该变量称为随机变量。概率分布是描述从随机变量的取值到概率的映射的函数。

可数集是其元素可以枚举为的集合。在一个可数集中取一个值的随机变量称为离散随机变量。请注意，可数集的大小不必是有限的，可以是无限的，例如所有自然数的集合。如果离散随机变量的每个值的概率为

\operatorname{Pr}(x)=f(x)

其中，称为概率质量函数。注意应该满足

\forall x, f(x) \geq 0, \text { and } \sum_{x} f(x)=1 .

投掷一个六面均匀的骰子的结果是一个离散的随机变量，其概率质量函数由给出。

具有连续值的随机变量称为连续随机变量。如果连续随机变量在中取值的概率为

\operatorname{Pr}(a \leq x \leq b)=\int_{a}^{b} f(x) \mathrm{d} x \qquad (1)

被称为概率密度函数，需要注意的是应该满足

\forall x, f(x) \geq 0, \text { and } \int f(x) \mathrm{d} x=1 .

例如，旋转轮盘的结果是一个连续的随机变量，其概率密度函数由给出。请注意，式（1）也有一个重要的含义，即连续随机变量正好取值的概率实际上为零：

\operatorname{Pr}(b \leq x \leq b)=\int_{b}^{b} f(x) \mathrm{d} x=0 .

比如，旋转轮盘赌的结果恰好是特定角度的可能性为零。

连续随机变量的值小于或等于的概率，

F(b)=\operatorname{Pr}(x \leq b)=\int_{-\infty}^{b} f(x) \mathrm{d} x

称为累积分布函数。

累积分布函数满足以下属性：

单调非减：时有。
左极限：。
右极限：。

如果存在累积分布函数的导数，那么它就是概率密度函数：

F^{\prime}(x)=f(x)

称为上尾概率或右尾概率，而称为下尾概率或左尾概率。

上尾概率和下尾概率一起称为双侧概率，而它们中的任何一个都称为单侧概率。

44 概率分布的性质

在讨论概率分布的性质时，使用简单的统计量来概括概率质量/密度函数会带来方便。在本节中，将介绍此类统计量。

+数学期望、中位数和众数

数学期望（Expectation）字面上是指期望随机变量取到的值。当然用文字表达比较含糊，具体还是看公式。用表示的随机变量的期望定义为根据概率质量/密度函数加权的的平均值，

\begin{aligned}<br /> \text { 离散型: } E[x] &=\sum_{x} x f(x) \\<br /> \text { 连续型: } E[x] &=\int x f(x) \mathrm{d} x<br /> \end{aligned}

请注意，存在诸如柯西（Cauchy）分布之类的概率分布，它们的期望并不存在（例如趋于无穷大）。对于的任何函数，可以类似地定义它们的期望：

\text { 离散型: } E[\xi(x)]=\sum_{x} \xi(x) f(x),

\text { 连续型: } E[\xi(x)]=\int \xi(x) f(x) \mathrm{d} x

对于常数，期望运算满足以下属性：

\begin{aligned}<br /> E[c] &=c, \\<br /> E[x+c] &=E[x]+c, \\<br /> E[c x] &=c E[x] .<br /> \end{aligned}

尽管期望代表了概率分布的中心，但当有异常值存在时，它与直观期望的差距可能很大。

例如，收入分配中，由于一个人赚取 100 万美元，直接把期望值拉高到美元，以至于让所有其他人都低于平均值。这就是网络上大家常说的被平均。

在这种情况下，中位数（Median）比期望值更合适，中位数定义为使得下式成立的值，

\operatorname{Pr}(x \leq b)=1 / 2

也就是说，中位数是概率分布的中心，就其而言，它是不管从左侧还是右侧开始数的中间点。在示例中，中位数为美元，确实位于人群中间。另外，还会用到中位数的扩展，当的 -分位数，即使得下式成立的值，

\operatorname{Pr}(x \leq b)=\alpha

也就是说，-分位数从左侧给出了点，而当时就是中位数。

让我们考虑在区间上定义的概率密度函数，而所谓的期望平方误差定义为

E\left[(x-y)^{2}\right]=\int_{a}^{b}(x-y)^{2} f(x) \mathrm{d} x,

使得它取极小值的值，事实上正是的期望。类似地，使得期望绝对误差

E[|x-y|]=\int_{a}^{b}|x-y| f(x) \mathrm{d} x \qquad (2)

取最小值的值也是的期望值。此外，式 (2) 的加权变体，

\int_{a}^{b}|x-y|_{\alpha} f(x) \mathrm{d} x, \quad|x-y|_{\alpha}=\left\{\begin{array}{ll}<br /> (1-\alpha)(x-y) & (x>y) \\<br /> \alpha(y-x) & (x \leq y)<br /> \end{array}\right.

使得它取极小值的值，正是的 -百分位。

另一个常用的统计量是众数（Mode），它是一组数据中出现次数最多的数值，被定义为使得取最大值的值。

+方差和标准差

尽管期望是表征概率分布的有用统计量，但是即使概率分布具有相同的期望，它们也可以不同。接下来我们引入另一个称为方差的统计量，以表示概率分布的分散情况。随机变量的方差定义为

V[x]=E\left[(x-E[x])^{2}\right] .

实际上，可以将以上表达式展开，

V[x]=E\left[x^{2}-2 x E[x]+(E[x])^{2}\right]=E\left[x^{2}\right]-(E[x])^{2}

通常会使计算变得更容易。对于常数，方差运算满足以下性质：

\begin{aligned}<br /> V[c] &=0 \\<br /> V[x+c] &=V[x], \\<br /> V[c x] &=c^{2} V[x]<br /> \end{aligned}

可以看到，这些性质与期望的性质完全不同。

方差的平方根称为标准差，用表示，

D[x]=\sqrt{V[x]}

通常，方差和标准差分别用和表示。

+偏度、峰度和矩

除了期望和方差之外，还经常使用诸如偏度（Skewness）和峰度（Kurtosis）之类的高阶统计量。偏度和峰度分别表示概率分布的不对称性和尖锐度，它们分别定义为

\begin{aligned}<br /> &\text {Skewness:} \dfrac{E\left[(x-E[x])^{3}\right]}{(D[x])^{3}} \\[1em]<br /> &\text {Kurtosis:} \dfrac{E\left[(x-E[x])^{4}\right]}{(D[x])^{4}}-3<br /> \end{aligned}

分母中的和用于规范化处理，峰度定义中包含的将正态分布的峰度归零。

如上图所示，如果偏度为正，则右侧尾比左侧尾要长；如果偏度为负，则左侧尾比右侧尾长。如果偏度为零，则分布是完全对称的。

如上图所示，如果峰度为正，则概率分布比正态分布更尖锐；如果峰度为正，则概率分布比正态分布更钝。

以上讨论说明了该统计量，

v_{k}=E\left[(x-E[x])^{k}\right]

在表征概率分布中起着重要作用。称为关于期望的阶矩，而

\mu_{k}=E\left[x^{k}\right]

被称为关于原点的第阶矩。期望值、方差、偏度和峰度可通过使用统一表示，

期望值：, 方差:
偏度：

\dfrac{\mu_{3}-3 \mu_{2} \mu_{1}+2 \mu_{1}^{3}}{\left(\mu_{2}-\mu_{1}^{2}\right)^{\frac{3}{2}}}

峰度：

\dfrac{\mu_{4}-4 \mu_{3} \mu_{1}+6 \mu_{2} \mu_{1}^{2}-3 \mu_{1}^{4}}{\left(\mu_{2}-\mu_{1}^{2}\right)^{2}}-3

5矩量母函数

如果指定了期望、方差、偏度和峰度，那么概率分布在一定程度上就被确定下来了。但是，如果我们该如何用更多的特征来描述分布呢？

其实，像平均值、方差、偏度和峰度这些特征统一被称为矩，那么有没有一个函数能够计算所有矩呢？有的，那就是所谓的矩量母函数（Moment generating function）。有了它，我们可以通过微分来计算各种矩，而不是用积分算，这样就简化了计算。

作为一个极限情况，如果指定了所有阶的矩，那么概率分布可以唯一地确定下来。矩量母函数使我们能够系统地处理所有阶的矩：

M_{x}(t)=E\left[e^{t x}\right]=\left\{\begin{array}{ll}<br /> \sum_{x} e^{t x} f(x) & \text { (离散型) } \\<br /> \int e^{t x} f(x) \mathrm{d} x & \text { (连续型) }<br /> \end{array}\right.

的确，将零代入矩量母函数关于的阶导数，可得阶矩：

M_{x}^{(k)}(0)=\mu_{k}

下面证明了这一事实。

函数关于的阶导数为，函数关于在原点处的泰勒展开式为，

e^{t x}=1+(t x)+\frac{(t x)^{2}}{2 !}+\frac{(t x)^{3}}{3 !}+\cdots .

两边分别计算期望，得

E\left[e^{t x}\right]=M_{x}(t)=1+t \mu_{1}+t^{2} \frac{\mu_{2}}{2 !}+t^{3} \frac{\mu_{3}}{3 !}+\cdots

两边求导，得

\begin{aligned}<br /> M_{x}^{\prime}(t) &=\mu_{1}+\mu_{2} t+\frac{\mu_{3}}{2 !} t^{2}+\frac{\mu_{4}}{3 !} t^{3}+\cdots \\<br /> M_{x}^{\prime \prime}(t) &=\mu_{2}+\mu_{3} t+\frac{\mu_{4}}{2 !} t^{2}+\frac{\mu_{5}}{3 !} t^{3}+\cdots \\<br /> & \vdots \\<br /> M_{x}^{(k)}(t) &=\mu_{k}+\mu_{k+1} t+\frac{\mu_{k+2}}{2 !} t^{2}+\frac{\mu_{k+3}}{3 !} t^{3}+\cdots<br /> \end{aligned}

将代入其中得。

对于某些概率分布，矩量母函数可能并不存在（例如发散到无穷大）。但它有个兄弟却是始终存在，即特征函数（Characteristic function），

\varphi_{x}(t)=M_{i x}(t)=M_{x}(i t)

其中表示虚数单位，使得。实际上，对概率密度函数作傅立叶变换即得到特征函数。

那么，这些函数有什么用途呢？关于这个我们下回再谈。

相关阅读

如何像数学系同学那样入门概率论？

机器学习基础 - 偏度、正态化以及 Box-Cox 变换

机器学习概率基础：除了偏度、峰度还有矩量母函数