【学术前沿】卷积神经网络:基于计算机视觉的施工人员活动评估

深度学习入门笔记

共 2179字,需浏览 5分钟

 ·

2021-03-29 20:43


点击上方“公众号”可订阅哦!


声明:本文只是针对个人学习记录,侵权可删。本人自觉遵守《中华人民共和国著作权法》和《伯尔尼公约》等法律,其他个人或组织等转载请保留此声明,并自负法律责任。论文版权与著作权等全归原作者所有。





01

文章摘要


计算机视觉方法已广泛应用于从视频中自动识别工人的活动。虽然从静止的帧中获取互补信息已经取得了相当大的进展,但获取它们之间的运动仍然是一个挑战。因此,这阻碍了实时监控的能力。考虑到这一挑战,我们提出了一种集成红绿蓝(RGB)、光流和灰流CNN的改进卷积神经网络(CNN),来准确监测和自动评估施工过程中与安装加固相关的工人活动。在中国武汉的几个建筑项目中,创建了一个包含工人安装钢筋照片的数据库。然后,该数据库被用来训练和测试开发出来的CNN网络。结果表明,该方法能够准确地检测工人的活动。开发的基于计算机视觉的方法可以被施工经理用作一种机制,以帮助他们确保项目达到预先确定的交付成果。


02

文章导读


拥有一支高效的员工队伍是决定建设项目时间和成本表现的关键因素。统计证据表明,在世界范围内,建筑业的生产力在过去几十年里一直在下降。有一个问题阻碍了在施工期间制定和实施提高生产力计划的能力,那就是缺乏建立工人绩效“基线”的数据。然而,如果要准确地实时监控工人的生产力,那么施工经理和他们的团队就需要直接建立适当的机制来解决那些影响运营的问题,以确保项目的预期绩效水平得以维持。其必然结果是控制和维护项目预先确定的可交付成果的能力,并获得对不利影响生产力的问题急需的理解和知识。


已有大量研究试图通过各种方法(如直接观察、调查和访谈)监测和分析工人现场活动。虽然这些方法在创建用于监测工人活动的知识体系方面很有用,但它们是耗时和劳动密集型的,往往会产生主观结果。为了解决这些限制,已经出现了一种转变,即通过使用非视觉传感器(如射频识别(RFID)标签、超宽带和全球定位系统(GPS)传感器等)来监测单个工人的活动,并跟踪他们的位置和设备。现有的几种基于非视觉传感器的方法通常跟踪工人的位置,因此不测量一个过程的关键操作参数,如工作顺序和周期时间。此外,为确定工人的工作地点和生产力水平所需要获得的数据的准确性往往各不相同,而且可能包括相当大的噪音,因而难以进行业绩评估。


为了解决基于位置的方法用于活动识别的局限性,计算机视觉已被广泛用于现场自动监控工人。从本质上来说,计算机视觉能够从图像和视频中提取丰富的信息(如项目实体的位置和行为、场地条件等)。但建筑工程领域仍存在一些尚未解决的挑战,其中包括:


  • 在复杂和不断变化的条件下的活动:工作者的活动通常记录在各种变化的背景中,这些背景受到遮挡、光照变化和视角变化的影响。

  • 多主体互动和群体活动:工人与一个或多个人和物体(如材料)进行互动活动。因此,如何用更有力的方法来了解施工现场仍然是一个问题。


为了克服这些问题,卷积神经网络(CNN)可以应用于自动识别工人的活动。深度三流CNN可以容纳复杂的活动,因为它可以同时捕捉静态空间特征,短期和长期运动的视频。在此背景下,本文的研究开发了一个深三流CNN,它集成了红-绿-蓝(RGB)、光流和灰流CNN来自动识别建筑工地工人的活动。同时,我们使用一种增强融合策略来融合三种流CNN的结果。开发的三流CNN的技术挑战和对未来研究的影响随后被确定。



03

主要图表


工人活动识别的研究过程


提出的三流CNN模型的工作流程


从数据集中提取的操作示例


“1”表示“钢弯曲”,“2”表示“运输”,“3”表示“行走”





04

主要结论


提出了一种融合RGB、光流和灰度流的改进CNN,用于准确监测和自动评估工人活动,以改善建设项目的管理。我们建立了一个新的真实世界数据集,该数据集涵盖了钢筋固定器的三个常见动作类别(即,钢筋弯曲、运输和行走),并在一个实验中使用来验证所引入的改进的CNN。实验结果表明,改进后的CNN获得了良好的性能,平均准确率达到85%,在未来的实际应用中具有良好的前景。


这项研究的主要贡献有两方面。首先,应用先进的图像处理技术分析施工作业。其次,开发的CNN方法可以自动实时监控生产力,并向经理和工人提供即时反馈。


然而,仍存在一些限制,需要改进以实现有效和高效的实时监测:

  • 长序列的实时跟踪:所开发的算法对工人活动识别的准确性起着关键作用。然而,与遮挡相关的问题通常会影响跟踪工作者的能力,因此需要关注遮挡问题。

  • 定义行动的时间序列:虽然开发的方法可以准确地识别工人的活动,但由于缺乏定义行动的时间序列(例如开始点和完成点)的知识,它的实际应用(例如,工人的生产力)是有限的。

  • 缺乏大规模的数据库:这项研究由大约1000个片段组成,这些片段被用来训练混合CNN模型,被认为是小的。缺乏可用的数据库是阻碍使用计算机视觉进行动作分析的主要障碍。在与几家建筑公司的合作中,研究人员未来将创建一个更大的数据集,从而提高拟议的CNN系统的准确性。




 END

深度学习入门笔记

微信号:sdxx_rmbj

日常更新学习笔记、论文简述

浏览 80
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报