TPAMI 2024 | 重新审视置信度估计:迈向可靠的故障预测
共 48280字,需浏览 97分钟
·
2024-05-28 10:05
点击上方“小白学视觉”,选择加"星标"或“置顶”
重磅干货,第一时间送达
题目:Revisiting Confidence Estimation: Towards Reliable Failure Prediction
重新审视置信度估计:迈向可靠的故障预测
摘要
关键词
-
置信度估计 -
不确定性量化 -
故障预测 -
错误分类检测 -
选择性分类 -
分布外检测 -
置信度校准 -
模型可靠性 -
可信赖性 -
平坦极小值
I. 引言
-
我们通过评估流行的校准和OOD检测方法在具有挑战性和实用性的故障预测任务中的表现,重新思考了置信度的可靠性。令人惊讶的是,我们发现这些方法对故障预测往往有负面影响。 -
我们从适当的评分规则和贝叶斯最优拒绝规则的角度,提供了关于校准和OOD检测对故障预测的详细分析和讨论。 -
我们揭示了一个有趣的可靠过拟合现象,即故障预测性能在训练过程中很容易过拟合。这种现象存在于不同的模型和数据集设置中。 -
我们提出寻找平坦极小值,以显著降低错误分类样本的置信度,同时保持正确样本的置信度。为此,提出了一种基于平坦极小值的简单技术。 -
在平衡、长尾和协变量偏移分类场景中的广泛实验表明,我们的方法实现了最先进的置信度估计性能。
II. 问题的表述和背景
多类别分类
A. 置信度校准
改进校准
校准的经验研究
B. OOD检测
改进OOD检测
C. 故障预测
改进故障预测
III. 校准和OOD检测是否有助于故障预测?
A. 实验设置
B. 实验结果
流行的校准方法可能会损害故障预测
流行的OOD检测方法可能会损害故障预测
选择性风险分析
相同的观察结果推广到大规模数据集
C. 进一步讨论和分析
-
关于故障预测的校准讨论:适当的评分规则。为了更深入地了解,我们回顾了适当的评分规则,这是一个几十年前的概念,用于评估估计的分数 如何解释观察到的标签 。最广泛使用的评分规则是对数损失:。请注意,评分规则适用于单个样本,对于数据集,使用所有样本的平均分数。使用规则 的预期得分在估计分数向量 上关于根据真实后验分布 抽取的类别标签 的情况下,给出 。接下来,我们定义 和 之间的散度为
-
关于故障预测的OOD检测讨论:在安全敏感的应用中,OOD样本和错误分类的InD样本都会导致显著的损失,因此应该被拒绝并交由人类处理。然而,如第三部分B所示,OOD检测方法通常使检测错误分类样本变得更加困难。为了进一步了解OOD检测方法对故障预测的负面影响,我们分别重新审视了贝叶斯最优分类器对故障预测和OOD检测的拒绝规则。
拒绝区域的不对齐
IV. 寻找平坦极小值以实现可靠的置信度估计
A. 动机和方法论
-
动机: 平坦极小值与置信度分离之间的联系。正确和错误样本之间的置信度可分离性对故障预测至关重要。让我们考虑置信度可分离性如何影响正确样本的置信度鲁棒性:对于一个正确分类的样本,要变为错误分类,它必须降低在真实类别上的概率并增加在另一个(错误)类别上的概率。在此过程中,置信度边际起着关键作用:较大的置信度边际可以使更改预测类别标签变得更困难。有趣的是,模型的平坦性反映了在扰动模型权重时正确分类样本变为错误分类样本的敏感性。如图8所示,具有平坦极小值时,正确样本在权重扰动下难以错误分类,反之亦然。因此,我们推测平坦极小值的正确和错误样本之间的置信度差距大于尖锐极小值。
-
方法论: 已经提出了几种寻找DNN平坦极小值的方法。我们选择随机权重平均(SWA)和敏锐感知最小化(SAM)作为两个代表性方法,因为它们的概念验证相对简单。具体而言,SWA简单地沿训练轨迹平均模型的多个参数,如下:
-
理论分析: 在第三部分C中,我们展示了故障预测和OOD检测的贝叶斯最优拒绝规则,以及拒绝区域的不对齐。不同于现有工作,专注于设计各种后处理分数(例如能量分数、最大对数分数、ConfidNet分数),一种有原则和根本的方法是学习贝叶斯类似分类器。在下文中,我们展示了贝叶斯分类器基于PAC贝叶斯框架更偏向平坦极小值。
B. 实验
C. 平坦极小值改进了故障预测
D. 长尾识别中的故障预测
协变量偏移下的故障预测
E. 平坦极小值也改进了OOD检测
V. 结论
声明
本文内容为论文学习收获分享,受限于知识能力,本文队员问的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。
下载1:OpenCV-Contrib扩展模块中文版教程
在「小白学视觉」公众号后台回复:扩展模块中文教程,即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。
下载2:Python视觉实战项目52讲 在「小白学视觉」公众号后台回复:Python视觉实战项目,即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。
下载3:OpenCV实战项目20讲 在「小白学视觉」公众号后台回复:OpenCV实战项目20讲,即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。
交流群
欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~
评论