【机器学习基础】为什么逻辑回归的损失函数是交叉熵?
前言
当前正在整理机器学习中逻辑回归的基础和面试内容,这里有一个值得思考的问题与大家分享与讨论。
本文约1k字,预计阅读5分钟。
概要
逻辑回归(logistic regression)在机器学习中是非常经典的分类方法,周志华教授的《机器学习》书中称其为对数几率回归,因为其属于对数线性模型。
在算法面试中,逻辑回归也经常被问到,常见的面试题包括:
逻辑回归推导; 逻辑回归如何实现多分类? SVM与LR的联系与区别? 逻辑回归反向传播伪代码;
大家可以思考下能不能回答/推导出,但这次讨论的问题是:
❝为什么逻辑回归损失函数是交叉熵?
❞
初看这个问题感觉很奇怪,但是其中的知识包含了LR的推导与理解。在我个人看来,可以从两个角度看待这个问题:
【1】从极大似然估计的角度可以推导出交叉熵;
【2】从KL散度(熵的角度)去理解;
极大似然估计
对于逻辑回归,我们一般通过极大似然估计来求解参数。
首先假设两个逻辑回归的两个条件概率:
学习时,采用极大似然估计来估计模型的参数,似然函数为:
对数似然函数(采用对数似然函数是因为上述公式的连乘操作易造成下溢)为:
对其求最大值,估计参数:
再将其改为最小化负的对对数似然函数:
如此,就得到了Logistic回归的损失函数,即机器学习中的「二元交叉熵」(Binary crossentropy):
此时转变为以负对数似然函数为目标函数的最优化问题,采用梯度下降法进行优化。
KL散度
KL散度这个概念知道的人可能相对极大似然估计更少一点,具体可以看机器学习笔记---信息熵。简单来说,「KL散度是衡量两个概率分布的差异」。
逻辑回归模型最后的计算结果(通过sigmoid或softmax函数)是各个分类的概率(可以看做是各个分类的概率分布)。那么假设真实的概率分布是,估计得到的概率分布是, 这两个概率分布的距离如何去衡量?
在信息论中,「相对熵」,也就是KL散度可以衡量两个概率分布的差异性。具体公式为:
并且简单转化,可以得到:
其中对于就是「交叉熵」,是真实分布的信息熵,所以
KL散度 = 交叉熵 - 真实概率分布的熵
因为交叉熵越大,KL散度越大,也可以用交叉熵来衡量两个概率分布之间的距离,所以逻辑回归使用交叉熵作为逻辑回归的损失函数。
总结
以上便是个人对这个问题的理解,如果解释有误的话,欢迎加我好友进行讨论。由于个人考虑到在一篇文章中包含过多的内容和公式可能会产生疲倦,所以只是集中于单个问题,对于其他逻辑回归相关的面试内容,也可以一起交流。
往期精彩回顾
本站qq群851320808,加入微信群请扫码: