一文读懂矩估计、极大似然估计和贝叶斯估计

共 12678字,需浏览 26分钟

 ·

2020-08-11 01:15




概率论和数理统计是机器学习重要的数学基础。


概率论的核心是已知分布求概率,数理统计则是已知样本估整体。


概率论和数理统计是互逆的过程。概率论可以看成是由因推果,数理统计则是由果溯因。


数理统计最常见的问题包括参数估计,假设检验和回归分析。


所谓参数估计,就是已知随机变量服从某个分布规律,但是概率分布函数的有些参数未知,那么可以通过随机变量的采样样本来估计相应参数。


参数估计最主要的方法包括矩估计法,极大似然估计法,以及贝叶斯估计法。


机器学习中常常使用的是极大似然估计法和贝叶斯估计法。


公众号后台回复关键字:源码, 获取本文含有公式latex源码的原始markdown文件。


一,矩估计法


矩估计的基本思想是用样本的k阶矩作为总体的k阶矩的估计量,从而解出未知参数。


例如








服从正态分布,但

















参数未知。











采样N次,得到



























































试估计参数


















解:用样本的一阶距估计总体的一阶距,用样本的二阶中心距估计总体的二阶中心距。


可以得到:








































































































































































的估计是有偏的,


无偏估计是







































































































二,极大似然估计法


极大似然估计法简称MLE(Maximum Likelihood Estimation).


极大似然估计法先代入参数值计算观测样本发生的概率,得到似然函数,然后对似然函数求极大值,得到对应的参数,即为极大似然估计参数。


对于离散随机变量X,N次采样得到样本结果为


























































,则极大似然估计法的公式为:





对于连续随机变量X,如果其概率密度函数为
































,其中

















为待求参数向量。


那么N次采样得到样本结果为


























































的概率正比于如下似然函数





为了便于计算方便,可以构造对数似然函数为





对数似然函数取极大值时,有





求解该方程可以得到

















的极大似然估计



























例如








服从正态分布,但

















参数未知。











采样n次,得到



























































试估计参数


















解:


正态分布的概率密度函数为





对应的对数似然函数为





对数似然函数取极大值时,有








解得



















































































































































三,贝叶斯估计法


贝叶斯估计也叫做最大后验概率估计法, 简称MAP(Maximum A Posterior)。


可以认为极大似然估计是贝叶斯估计不考虑先验概率的特例。


在概率论中有两大学派,频率学派和贝叶斯学派。


频率学派认为随机变量服从特定的统计分布规律,分布函数的参数是确定的数,可以通过抽样来估计。


和频率学派不同,贝叶斯学派认为一切皆为随机变量,随机变量的分布函数的参数也是随机变量,对其进行抽样估计时还必须考虑参数的先验分布。


在贝叶斯学派中,似然函数被理解为









































































已知时的条件概率:























本身也为随机变量,具有先验概率分布函数



























贝叶斯估计的想法是最大化

















的后验概率
, 应用贝叶斯公式得到





当不考虑先验概率


























时,最大化后验概率回到极大似然估计。


由于在实践中,先验概率


























往往并不可知,所以极大似然估计法用的更多一些。


在机器学习中,有一种和引入先验概率等效的做法,那就是在目标函数(相当于对数似然函数)后面加入正则化项。


如果加入的是L1正则化,相当于假设了参数的先验分布符合双指数分布,而如果引入了L2正则化,相当于假设了参数的先验分布符合正态分布。


在机器学习中,经验风险最小化和极大似然估计对应,结构风险最小化和贝叶斯估计对应。


如果对本文内容理解上有需要进一步和作者交流的地方,欢迎在公众号"Python与算法之美"下留言。作者时间和精力有限,会酌情予以回复。


也可以在公众号后台回复关键字:加群,加入读者交流群和大家讨论。





浏览 50
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报