U-LanD:基于不确定性的视频地标检测
点击上方“小白学视觉”,选择加"星标"或“置顶”
重磅干货,第一时间送达
本文提出了一个联合检测视频关键帧和地标的框架U-LanD。我们解决了一个特别具有挑战性的问题,训练标签是有噪声和高度稀疏的。U-LanD建立在一个关键的观察基础上:一个只在关键视频帧上训练的深度贝叶斯地标检测器,与视频中的其他帧相比,这些帧的预测不确定性显著降低。我们使用这个观察作为一个无监督信号自动识别关键帧,我们检测地标。作为我们框架的测试平台,我们使用心脏的超声成像视频,其中稀疏和嘈杂的临床标签只能用于每个视频的单个帧。使用4493例患者的数据,我们证明U-LanD在R方评分上的绝对优势显著地超过了最先进的非贝叶斯模型,达到42%,几乎没有模型大小的负担。我们的方法是通用的,可以潜在地应用于其他具有噪声和稀疏训练标签的具有挑战性的数据。
我们证明了U-LanD在具有挑战性数据集的稀疏注释数据上的有效性,即超声心动图(回声,心脏超声)。回声视频,又名回声电影系列,有着臭名昭著的噪声性质(样本帧可以在图1中看到),这增加了自动分析的复杂性。我们解决了左室流出道(LVOT)里程碑检测[23]的任务,这是一个遭受标签稀疏性极端限制的问题;在LVOT训练视频中,整个帧跨度中只有一帧具有ground-truth landmark标签。在每个训练视频中,临床专家都标注了两个点的位置(用于测量左心室直径的点的坐标),只标注了一帧(心脏收缩期中期周围的一帧),在这一帧中,目标对象,即主动脉,具有最高的可见性。在我们的实验中,我们收集了4493名患者的大规模回声数据集,证明了ULanD可以显著提高最先进的非贝叶斯对应对象的结果。同时,U-LanD是全自动的,它可以超过涉及专家监督的半自动关键帧地标检测的结果。
提出的U-LanD框架的框图,包括训练、统计校准和测试阶段。ULanD自动预测视频关键帧上的地标,而训练视频只标注在一帧上。我们建议利用贝叶斯地标检测器(BU-Net)的预测不确定性,通过时间来识别关键帧和非关键帧。
测试视频的样本帧,以及它们对应的任意和认知不确定性映射。a)采样非关键帧,不确定度高(无地标预测)自动丢弃。b)将预测地标叠加在关键帧上的关键帧样本。心脏超声视频的目标是左血流;地标是用来测量LVOT长度(两点之间的线)。图(b)显示了预测的地标(绿色)、地面真实地标(橙色)和重叠部分(黄色)。这种情况下的预测误差(长度的平均绝对差)为0.18 mm。此外,样本视频结果在补充材料中给出。
在本文中,我们提出了U-LanD,一个贝叶斯框架,用于在具有极稀疏和噪声标签的视频中联合关键帧和地标检测。U-LanD利用时间的不确定性变化作为无监督信号来检测视频关键帧上的地标。我们在一个具有挑战性的心脏超声系列数据集上演示了U-LanD,其中每个训练视频中只有一帧被注释,然而这些注释是嘈杂的临床标签。在实验中,我们从4493例患者中采集了大规模的echo系列视频数据集,显示了U-LanD的有效性;以42%(+175%)的显著边际提高了最先进的非贝叶斯对应的R方分数,没有额外的标签成本,几乎没有内存开销。U-LanD(全自动)在R2评分上也比半自动视频里程碑检测高出25%(+61%)。U-LanD即使简单选择骨干检测器9和OOD剔除方法,也能取得较好的效果。未来的工作可能包括研究多目标检测和跟踪中的时间不确定性。
论文链接:https://arxiv.org/pdf/2102.01586.pdf
每日坚持论文分享不易,如果喜欢我们的内容,希望可以推荐或者转发给周围的同学。
- END -
交流群
欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~