百度开源的这个项目,太强了!

小白学视觉

共 2755字,需浏览 6分钟

 ·

2022-04-18 23:38

行人检测跟踪计数、人员行为分析、人员属性分析、人员操作及穿戴合规监测等场景化能力在工业、安防、金融、能源等行业有着极其广泛的应用需求。以深度学习视觉技术为核心的行人分析能力,则是以上任务的核心关键,也是近十年人工智能科技公司不断发力深耕的赛道。

飞桨目标检测开发套件 PaddleDetection 中提供的 PP-Human 就是一套综合了目标检测、跟踪、关键点检测等核心能力的产业级开源实时行人分析工具。它基于企业真实场景数据打磨优化,拥有人体属性识别、行为识别与流量计数三大能力,兼容单张图片、单路或多路视频 3 种输入类型,还可适应不同光线、复杂背景及跨镜头场景!

PP-Human 多功能全景图

不仅如此,PP-Human 还直接提供目标检测、属性分析、关键点检测、行为识别、ReID 预训练模型,方便开发者灵活取用及更改。

⭐PP-Human 项目传送门⭐

https://github.com/PaddlePaddle/PaddleDetection
记得 Star 收藏,防止走丢又实时关注更新。

PP-Human 具有怎样的架构,又如何使用呢?



PP-Human 功能总览



PP-Human 技术全景图

PP-Human 采用 pipeline 的方式串联输入、子模块的预测与后处理部分。输入部分支持单张图片,图片文件夹,单镜头视频和多镜头视频,通过命令行输入不同参数即可实现对应功能。


PP-Human 支持属性分析、行为识别、流量计数三大功能,包含目标检测、多目标跟踪、属性识别、关键点检测、行为识别和跨镜跟踪 6 大技术能力:

  • 输入为图片:覆盖目标检测与属性识别功能

  • 输入为单路视频:覆盖多目标跟踪、轨迹绘制与流量计数、属性识别、行为识别功能

  • 输入为多路视频:覆盖跨镜跟踪功能


接下来,让我们详细看看 PP-Human 中每一个模块的技术选型及特点。




基础能力剖析



行人检测:PP-Human 提供的是基于飞桨高精度云边一体 SOTA 目标检测模型 PP-YOLOE 的行人检测预训练模型,其精度在混合数据集上可达到 mAP 56.3,真实场景数据验证上可达到 mAP 67.7,在 T4 上端到端耗时仅为 28ms

单镜头跟踪:PP-Human 中的单镜头跟踪能力则是采用 SDE 方案,其数据标注和训练调优都更加灵活便捷,且对数据类型不敏感,拥有更强泛化性,具备高灵活度产业易用两大特性:

SDE 与 JDE 方案对比表

同时,为了弥补 SDE 方案的性能弱势,PP-Human 在跟踪技术选型和优化上做了一下 3 种改进:


  • 采用超高精度检测器:SDE 模型的效果强依赖检测器的精度,因此检测部分选择了相较 YOLOX 精度提升 1.3%、速度提升 25% 的 PP-YOLOE

  • 选择全新数据关联方式 ByteTrack:与传统方式不同,ByteTrack 不再丢弃物体被遮挡时的低分检测框,而是利用低分检测框与轨迹的相似性,降低漏检并提高轨迹连贯性,进而有效缓解人像重叠带来的跟丢、轨迹碎片化的问题。同时高效的检测模型和数据关联策略能够使得目标不需要使用 ReID 模型提取外观特征,从而进一步提升跟踪性能

  • 优化预处理效率:将图像归一化操作合并于模型中执行,实现部署加速,提升整体性能

多镜头跟踪:在跨镜跟踪中,需要匹配在不同摄像头下出现的人,因此相对于跟踪任务,其更关注的是识别匹配问题,依赖的技术主要是行人重识别(ReID)技术。PP-Human 的跨镜头跟踪主要包括 ReID 和特征质量选择两个部分:

  • ReID:使用 Centroid-ReID 模型,整合多个开源数据集进行训练,提供了一款性能远优于其他开源模型的可应用模型。特征匹配使用多投票的方式,利用相同 ID 的多个目标特征的组合,来提高最终匹配效果,实现效率远高于 Rerank 方法。另外,其匹配方法与 ReID 模型独立,使用者可灵活更换任意 ReID 模型
  • 特征质量选择:跨镜头跟踪中,ReID 的匹配效果并不完全等同于实际的跟踪效果,其匹配效果还受到目标遮挡、完整度、模糊度等各种环境影响,这个过程中过滤低质量图片,保留高质量图片,能够进一步提升跨镜跟踪效果。




应用功能详解:高精度 26 种人体属性分析



PP-Human 中人体属性分析覆盖性别、年龄、朝向、穿着等 26 种属性,其原理是将人体检测框输入多标签分类网络 StrongBaseline 进行属性的识别与分类。基于 PETA,RAP,PA-100K 与企业真实场景数据的融合数据集进行训练,最终实现 mAP 94.86、预测速度 2ms / 人的卓越性能。

上海天覆科技应用实景图




应用功能详解:泛化性强的毫秒级行为识别



PP-Human 中的行为识别模块采用的是跟踪 + 关键点检测 + 骨骼点系列识别的技术方案,适用于各类单纯与人体相关的行为识别场景,如摔倒、打架等等,同时具备以下特点:

  • 鲁棒性强:对光照、视角、背景环境无限制

  • 性能高:与视频识别技术相比,模型计算量大幅降低,支持本地化与服务化快速部署

  • 训练速度快:仅需 15 分钟即可产出高精度行为识别模型


其中,由于整体效果依赖关键点检测,因此 PP-Human 选用精度更高的 HRNet 模型,并加入了 DarkPose 中的无偏 encoding 方法,在模型速度不损失的同时提升精度,骨骼点系列识别选择的则是经典模型 ST-GCN,并加入数据增强、关键点归一化等优化策略,实现在业务数据集上单人耗时 2.7ms,准确率达到 96.83% 的效果!

上海天覆科技办公区摔倒检测




应用功能详解:一行代码即可实现人流检测



PP-Human 提供基于跟踪的人流检测,仅需开启参数即可实现去重人流统计,输出结果包括进入(in)和离开(out)的行人数量,适用于各类场景如商场、小区的人流监控。

看了这么多功能介绍,想要第一时间上手试试?PP-Human 提供了完整项目教程,数行代码即可快速上手,记得 Star 收藏订阅最新动态哦!

https://github.com/PaddlePaddle/PaddleDetection/tree/release/2.4/deploy/pphuman

为了让开发者们更深入的了解 PP-Human 这套多功能的行人分析系统,解决产业应用难点以及掌握产业实践的核心能力,飞桨团队精心准备了为期三天的直播课程!



4 月 19 日 - 21 日百度资深工程师们将在直播现场对各类痛难点解决方案进行手把手拆解,其中 4 月 20、21 日每晚 20:30 会对 PP-Human 的原理进行详细剖析,并带领大家进行产业案例全流程实操,更有现场答疑环节,还在等什么!抓紧扫码上车吧!

浏览 56
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报