【学术前沿】基于缺陷检测和度量学习的CCTV视频污水管道缺陷自动跟踪-技术圈

点击上方“公众号”可订阅哦！

声明：本文只是针对个人学习记录，侵权可删。本人自觉遵守《中华人民共和国著作权法》和《伯尔尼公约》等法律，其他个人或组织等转载请保留此声明，并自负法律责任。论文版权与著作权等全归原作者所有。

文章摘要

计算机视觉技术在污水管道检测视频的自动解释方面得到了广泛的研究，但以往的研究主要集中在缺陷检测和单个图像的分割上，无法在连续的视频帧中识别出是否为同一缺陷(即跟踪缺陷)。然而，为了评估管道的状况，需要在视频中计算独特缺陷的数量。本文提出了一种基于缺陷检测和度量学习的CCTV（closed-circuit television）视频中多个下水道缺陷跟踪框架。首先，基于深度学习的缺陷检测模型和度量学习模型分别使用我们的下水道数据集开发和训练。然后，跟踪模块使用训练模型中的检测结果及其特征作为输入，通过卡尔曼滤波预测跟踪，并根据缺陷运动、外观特征和缺陷类型关联跟踪。我们的实验表明，该框架能够在CCTV视频中跟踪下水道缺陷，IDF1得分57.4%。我们注意到跟踪性能会受到检测精度和度量学习模块配置的影响。通过对不同权重的距离指标的跟踪结果分析，我们发现对外观类和缺陷类距离指标赋予较大的权重会增加IDF1得分，而较大的运动距离权重会降低跟踪精度。提出的框架有助于跟踪多个下水道缺陷，这可以帮助计数检查视频中的独特缺陷。

文章导读

污水管道系统是地下设施的重要组成部分，是城市提供城市服务的“血管”。在许多国家，由于其30年到100多年的长期使用历史，大多数下水管道系统都存在各种各样的缺陷。这些缺陷会加速管道的恶化，并导致各种问题，如卫生下水道溢流(SSOs)、流入和渗入以及天坑。据估计，美国每年有23000到75000个SSOs，这可能是由管道堵塞造成的，导致水污染和威胁公共健康。ASCE在2017年将美国的污水(下水道)基础设施等级定为“D+”，并估计在未来25年，废水系统需要2710亿美元，其中一半以上用于运营和维护(运维)部门。下水道系统的恶劣条件和运维所需的大量资金表明，进行有效的下水道检查和评估，例如安排维修活动和适当分配资源，是非常重要和必要的。

基于视觉的下水道检查技术，如闭路电视(CCTV)，通常被用于通过拍摄视频和图像来调查下水道管道的内部状况。在检验过程中，检验员需要手工发现已存在的缺陷，并根据相关的规范、手册或标准，记录每个缺陷的类型、位置和数量。检查后，捕捉到的视频可能需要再次审查，以确认缺陷信息和评估下水道条件。虽然在不同的国家和地区采用不同的标准,如管道评估认证项目(PACP)在美国和香港管道条件评价准则(HKCCEC)在香港,所需的主要信息评估排污条件相似,通常包括缺陷类型,位置或分布的视频帧,沿着管道距离,每种类型的缺陷的数量,以及缺陷严重程度评分。然而，获取这些信息的人工解释过程需要大量的时间和精力，并且由于不同检查人员对缺陷条件的不同理解，结果可能是不一致的，例如，条件可能被高估或低估。

针对人工判读的局限性，利用计算机视觉技术，可以自动理解检查视频中的对象，协助检查人员识别缺陷，从而大大减少工作量，提高评估效率。更重要的是，如果有历史检查视频，可以利用计算机视觉的方法回顾每条管道前几年记录的检查视频，其结果可以用来建模退化过程，预测未来的情况。

虽然下水道缺陷不是移动的物体，但在检查过程中，带有摄像头的检查设备是沿着管道移动并拍摄视频的。因此，在捕获的视频中，下水道缺陷可以看作是移动的物体。为了获得唯一的缺陷号，本文提出对视频中的每个缺陷进行跟踪，并为每个缺陷分配一个唯一的ID号。视频中各种下水道缺陷的跟踪问题类似于行人跟踪、车辆跟踪等多目标跟踪(MOT)问题，但并不完全相同。跟踪不同的下水道缺陷更像是多类多目标跟踪，因为需要跟踪不止一种类型的缺陷，而大多数MOT方法只跟踪同一类的对象。因此，除了MOT方法中常用的对象运动和外观特征外，我们还将对象类信息，即缺陷类型，纳入跟踪算法中，这是大多数最先进的MOT方法所没有考虑的。

在本研究中，我们开发了一个在CCTV视频中跟踪下水道缺陷的框架，该框架由三个主要模块组成:缺陷检测、度量学习和缺陷跟踪。开发了一种基于深度学习的检测模型，并对其进行了训练，以获得检测裂缝、树根和污水侧井的高精度。同时，训练一个度量学习模型来提取缺陷的判别特征，如重新识别视频中的缺陷。在缺陷跟踪模块中，提出了一种基于三个距离度量的缺陷跟踪方法，以更准确地跟踪多个下水道缺陷。由于检测模型和度量学习模型的输出作为跟踪过程的输入，我们还研究了检测和度量学习的性能和配置对最终跟踪结果的影响。

基于缺陷检测和度量学习的缺陷跟踪

为了跟踪每一个缺陷并获得CCTV视频中唯一缺陷的数量，本文提出了一个跟踪多个下水道缺陷的框架。如图1所示，本文提出的框架中有三个主要模块，分别是(1)缺陷检测，(2)度量学习，(3)缺陷跟踪。检测模块利用包围盒检测视频中每一帧的缺陷，检测结果作为跟踪模块的输入。同时，度量学习模块的目的是训练一个能够提取下水道缺陷判别特征的模型，用于对视频中的缺陷进行重新识别。最后，跟踪模块通过度量学习模型提取检测到的缺陷的特征来跟踪缺陷，并根据外观特征、运动和缺陷类将检测与跟踪联系起来。对于每个模块，都有类似的过程，包括准备数据集、构建算法或模型架构、训练、评估和保存模型，以及实现模型以生成所需的结果。

实验和结果

数据集

这些图片是由两名土木工程本科生贴上的标签。为了提高标签图像的一致性，大约50个随机图像被最初选择并呈现给两个人。为了保证编码器间的可靠性，对标注进行比较，以突出图像标注中潜在的不一致。90%的数据集(即3240张图像)用于训练，10%(即360张图像)用于评估模型。

缺陷检测的影响

基于Faster
R-CNN的用于下水道缺陷检测的深度学习模型使用上述介绍的数据集构建和训练。结果表明，训练后的模型检测裂缝、根侵入和横向连接的平均精度(AP)分别为0.62、0.73和0.95，最终得到0.77的地图。利用训练后精度最高的模型对视频进行缺陷检测，并将检测结果用于跟踪过程。

总之，跟踪模型通常在非常明亮或模糊的情况下表现良好(即连续跟踪缺陷)。然而，极端模糊矩也会影响检测精度。在“上下旋转”摄像机运动下跟踪结果。图13所示。在非常明亮的条件下跟踪。另一方面，该模型更容易受到黑暗环境的影响，在黑暗环境中提取缺陷特征比较困难。因此，需要研究如何减少光照和模糊条件对检测和跟踪过程的影响。

讨论

总的来说，实验结果证明了我们提出的框架能够在检查视频中跟踪多个下水道缺陷，并获得不错的IDF1分数。定性结果表明，即使在不同的摄像机运动和环境条件下，我们的模型也能够跟踪大多数视频中的缺陷。此外，实验定量结果表明，框架各模块的性能会在一定程度上影响整体跟踪精度。首先，我们在框架中采用了逐检测跟踪的方法，使得跟踪精度在很大程度上依赖于检测精度。基于地面真值检测的跟踪算法的IDF1达到94.4%，显著优于基于训练模型检测的算法。因此，提高下水道检测精度将是促进跟踪性能的优先事项。

其次，由于度量学习模型用于提取跟踪过程中使用的特征，度量学习模型的质量也会影响跟踪结果。值得注意的是，图像匹配精度越高的度量学习模型，跟踪效果越好，尽管图像匹配精度越高，不一定跟踪效果越好。这可以部分归因于图像匹配任务中跟踪过程相对静态查询过程具有更多的动态特征。一般来说，可以采用不同的损失函数和多域数据集等策略来提高跟踪性能，减少数据准备工作。

结论

尽管基于视觉的方法对下水道检查视频进行自动解释的趋势越来越明显，但还没有研究试图统计视频中独特缺陷的数量，这是评估管道状况所必需的。本文提出了一种基于缺陷检测和度量学习的CCTV视频中通过跟踪多个下水道缺陷获取缺陷数的框架。首先，利用下水道缺陷数据分别训练缺陷检测模型和基于深度学习的度量学习模型，检测每一帧中的缺陷并提取其判别特征。然后,基于三个距离度量,即运动,外观和缺陷类型、缺陷跟踪模块,提出了可以通过(1)检测缺陷和提取它们的特征,(2)使用卡尔曼滤波器预测跟踪状态,(3)计算三个缺陷之间的距离度量和跟踪获取成本矩阵,和(4)将检测与跟踪基于成本矩阵。

END

深度学习入门笔记

微信号:sdxx_rmbj

日常更新学习笔记、论文简述