“交叉熵”反向传播推导
极市导读
交叉熵(CrossEntropy)是常见的损失函数,本文详细推导一下它的梯度,面试大厂或者工程实践中都可能会用到~ >>加入极市CV技术交流群,走在计算机视觉的最前沿
前向传播
假设分类任务类别数是 , 隐层输出是 维向量 , 标准的one-hot向量是 , 正确的类别 是 。那么交叉熵损失可以定义为:
其中
是平滑参数。Softmax函数大家都很熟悉了, 具体形式为:
反向传播
对 的梯度要分两种情况:
推导过程
根据求导法则有:
其中就是Softmax函数的梯度(这个推导比较简单,放在了文末):
下面分两种情况讨论:
当时:
当时:
Softmax梯度
回顾Softmax函数的形式:
这里也分两种情况讨论:
当时:
当时:
公众号后台回复“CVPR 2022”获取论文合集打包下载~
评论