“交叉熵”反向传播推导

共 598字,需浏览 2分钟

 ·

2022-05-24 02:32

↑ 点击蓝字 关注极市平台

作者丨godweiyang
来源丨算法码上来
编辑丨极市平台

极市导读

 

交叉熵(CrossEntropy)是常见的损失函数,本文详细推导一下它的梯度,面试大厂或者工程实践中都可能会用到~ >>加入极市CV技术交流群,走在计算机视觉的最前沿

前向传播

假设分类任务类别数是 , 隐层输出是  维向量 , 标准的one-hot向量是 , 正确的类别 是  。那么交叉熵损失可以定义为:

其中
 是平滑参数。Softmax函数大家都很熟悉了, 具体形式为: 

反向传播

对  的梯度要分两种情况:

推导过程

根据求导法则有:

其中就是Softmax函数的梯度(这个推导比较简单,放在了文末):

下面分两种情况讨论:

  1. 时:
  1. 时:

Softmax梯度

回顾Softmax函数的形式:

这里也分两种情况讨论:

  1. 时:
  1. 时:


公众号后台回复“CVPR 2022”获取论文合集打包下载~

△点击卡片关注极市平台,获取最新CV干货
极市干货
CVPR 2022:CVPR'22 最新132篇论文分方向整理CVPR'22 最新106篇论文分方向整理一文看尽 CVPR 2022 最新 20 篇 Oral 论文
极市动态:极视角成为首批「青岛市人工智能产业链链主企业」!
最新竞赛:六大真实场景赛题!ECV2022极市计算机视觉开发者榜单大赛预报名开启


觉得有用麻烦给个在看啦~  
浏览 12
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报