一文看懂滴滴的ADAS解决方案!自研超低功耗目标检测框架:ZoomNet
桔妹导读:道路交通事故每年都给人类带来巨大的生命和财产损失。滴滴作为交通领域的深度参与者,不断地探索降低交通事故的方法。本文重点介绍车载视觉团队是如何在滴滴的场景下,在桔视设备上,使用超低功耗的桔视ADAS(高级辅助驾驶系统)技术,降低交通事故发生率,守护司乘安全。
道路交通事故是一种世界性的公害,每年都给人类带来巨大的生命和财产的损失。滴滴作为交通领域的深度参与者,不断地探索降低交通事故的方法。
近些年ADAS(高级辅助驾驶系统)逐渐进入大众的视野,在前装汽车中的渗透率也在不断提高。但对于滴滴司机驾驶的私家车来说,ADAS覆盖率仍然非常低,只能依赖后装的ADAS系统。
相信很多人在乘坐滴滴的时候,见过前挡玻璃上的桔视行车记录仪,偶尔也能听到“注意前车”,“请保持车距”,”前车刹车“等语音提醒。在此款设备上,我们研发了后装ADAS系统。该系统支持前向碰撞预警(FCW),跟车过近提醒(HMW),前车刹车提醒(BLW),前车起步提醒等功能。
本文将阐述,我们是如何在滴滴场景下,在桔视设备上,使用超低功耗的桔视ADAS(高级辅助驾驶系统)技术,降低交通事故发生率,守护司乘安全。
对历史交通事故的分析表明,同责及以上事故中,追尾事故占比60%,远高于其他事故类型,而追尾事故中又有80%是由于跟车过近所引起的,可见司机的驾驶习惯和交通事故有较强的关联性。驾驶过程中无意识的跟车过近,常常会导致驾驶员在前方突发紧急情况时无法及时作出反应,从而引发追尾事故。
国内外分析数据表明,ADAS是避免交通事故的一种有效手段。安盛的分析报告表明,只要1.5s的事前提醒,就能够避免90%的事故[1]。美国IIHS机构数据表明,FCW功能能够减少69%未刹车追尾[2];
桔视ADAS融合前置摄像头、后置摄像头、IMU、GPS等多种传感器,联动设备端上DMS、碰撞检测、驾驶行为检测等多种算法,识别隐患场景,以实时提醒的方式,干预司机驾驶行为,培养司机良好的驾驶习惯,从而降低追尾事故率。
依靠桔视强大的AIoT平台、近百万量级的设备在线量,我们能够通过设备端的边缘计算,云端大数据分析,司机乘客主动反馈等渠道,主动或被动地获取交通事故数据。通过GPS,IMU,前后摄(订单内)的数据,我们能够完整地还原交通事故的整个过程,也能够客观,公正,精确地评估ADAS运行效果。
桔视ADAS上线后,进行了为期一个月的AB实验。数十万台设备,数亿公里的行驶里程,最终证明:
亿公里追尾事故率能够显著降低11.4%,整体事故率降低9.1%
尤其是在高峰期,亿公里追尾事故率显著降低16.7%
现存的ADAS解决方案,往往需要超大的算力支持,使用GPU/NPU等专用加速芯片,支撑T级别算力要求。但出于成本、单次长时间运行的功耗与稳定性等方面的考虑,桔视还无法满足此类算力的需求。
桔视行车记录仪,使用MTK8665芯片处理器,四核ARM Cortex-A53,最高可达1.5GHz。虽然桔视体积小,但内部运行着众多业务逻辑,只能预留给ADAS 5%的算力。为了能在如此苛刻条件下运行ADAS系统,我们提出了超低功耗ADAS解决方案。
整体方案如下所示:
ADAS算法在桔视设备的落地应用过程中面临许多挑战:
桔视算力有限而算法众多,如何实现超低功耗的实时目标检测?
轻量级模型误差大,抖动剧烈,如何提升目标检测框稳定性?
桔视设备安装角度各异,如何进行灭点标定?
报警时间与事故率紧密相关,如何提升报警及时性?
实际驾驶中复杂场景众多,如何挖掘长尾难样本?
▍4.1 超低功耗前车检测
随着深度学习领域的火热发展,在图像目标检测领域,已经出现多款可落地的检测框架。以下视频是使用云端大模型TridentNet[3] (ResNet-101),在桔视录制的前摄视频中可视化的前车检测结果。在Nvidia K80 GPU上,单帧耗时数百毫秒。
如此庞大的模型,无论是在云端还是边端,都无法满足ADAS实时性要求。
为了提高实时性,出现了一些轻量级的检测框架,比如目前比较流行的轻量级Backbone结合单阶段检测框架YOLO [4]、SSD [5] 等。
下图是云端模型的渲染效果。其中红色框为云端大模型TridentNet的检测结果,蓝色框为云端轻量级ShullfenetV2 + SSD[6]的检测结果,绿色是我们的方案。从图中,我们可以明显看出,红色TridentNet检测结果不论是从目标框的稳定性上,或者是从左侧波形的抖动程度上,还是从右侧目标中点的离散程度上,都要远优于绿色小模型的检测结果。
从检测效果看,与云端大模型相比,小模型的检测稳定性差了很多,这对整体报警策略带来巨大的挑战。
业界通用的多目标检测+多目标跟踪+车道线检测的方案,并不适用于桔视的低功耗边缘计算场景。于是我们将问题简化为单一前车检测问题,结合现有条件及ADAS特性,提出了自己的单目标检测框架:ZoomNet。ZoomNet包括前车检测模型和基于时序融合的模型调度策略ZoomTracker。
在将问题简化为单一前车检测后,我们提出了基于anchor回归的模型。前车回归模型包含分类和回归两个分支,分类分支输出前车有无,回归分支估计前车位置。在回归分支之中,我们将回归坐标转化为回归基于anchor的偏移量。
以下图中,960x960的crop区域为例,我们每隔120像素设置了一个anchor,一共8个anchor,也就是下图中的0到840。我们并不直接回归y2,而是回归y2相对于这8个anchor的偏移量delta,即
anchor设置如下图:
为了进一步提升计算速度,我们又使用滴滴自研的IFX模型加速框架,对我们的超轻量检测模型进行计算优化,最终在4A53上占用小于5%的前提下,实现实时前车检测。
▍4.2 稳定性
由于轻量级模型的复杂度和性能有限,在单帧图像上的检测结果会存在以下问题:小目标难以检出、包围盒误差大、目标丢失、目标误检、鲁棒性差(无法适应遮挡、夜间黑暗、反光、逆光、大雾、雨天等复杂场景)。
a) 小目标难以检出
在单帧图片上模型准确率不高,在时序视频流上的表现会更不尽人意,会出现诸多不稳定情况,如目标丢失闪烁、包围盒抖动剧烈。
上述问题使得目标信息极为不稳定,为后续算法的使用带来极大挑战,且误差不断向后传播,严重影响整体功能的效果。
针对检测模型性能有限,我们提出一种时序信息融合结合模型调度的方式,实现物体检测框的高稳定性,能有效克服目标丢失误检、包围盒抖动等问题,在时序视频流上表现优越。
方案中包含2个深度网络模型和卡尔曼滤波器;
首先通过端到端的前车检测模型得出前车大致位置,再通过超轻量级的回归网络得出准确的前车包围盒。在下一时刻,利用历史检测结果对前车目标可能出现位置进行预测,在预测位置上直接进行回归。
通过时序融合的模型调度,在最终效果上克服了小目标、目标丢失误检、包围盒抖动、鲁棒性差的问题,并在时序目标检测稳定性误差上降低了23.3%。
具体示例可见下图,其中绿框为本方案结果,红框为人工标注的Ground Truth,蓝框为没有进行时序融合结果。从图中可以明显看出,绿色结果在目标框稳定性上、左侧波形抖动上、右侧中点离散程度上,均要远优于蓝色。时序信息的引入大大提高了轻量级模型检测结果的稳定性,在效果上逼近云端大模型。
▍4.3 相机安装位置标定
前车与本车的距离关系是识别隐患场景的重要条件,而线上设备安装角度各异给距离测算带来了很大挑战,那如何对大量已安装的桔视设备进行标定呢?桔视ADAS团队在落地实践中提出了两种方法。
4.3.1 基于深度学习模型回归消失点
业界通用的方法一般是通过车道线/直线检测计算消失点,但我们发现在不使用车道线检测的情况下,也可以用与前车检测相同的anchor回归的方式,使模型学习到消失点。
消失点回归可以实现设备俯仰角的标定,结合前车坐标,可以得到本车与前车的纵向车距。
4.3.2 基于数据统计估计水平灭点
通过深度学习模型可以回归车道线消失点,但难以回归水平灭点,实现偏航角的标定。偏航角误差会导致横向距离计算失准,将同车道前车误判为旁车道车辆。
基于模型检测到的前车与本车大概率处于同一车道的先验条件,我们使用了一种简单有效的方法估计水平灭点,即通过长时间统计模型输出,分桶估计水平灭点,得到参考性的本车直行的朝向。
▍4.4 报警及时性
4.4.1 TTC
TTC(time to collision)碰撞发生时间,是衡量碰撞预警效果的重要指标,计算方式如下:
即为两车车距/两车相对速度,一般取2.7s,意为在判断出按照当前车距与相对速度,还有2.7秒会与前车发生碰撞时,发出预警。行车记录仪前摄视场角大,远距离目标在画面中小,前车检测模型小且帧率有限,远距离前车检测结果易抖动,导致高速情况下难以对远距离前车进行及时预警。
4.4.2 前车刹车提醒
对高速场景下的事故数据进行分析后,我们发现高速场景下的事故与前车突然刹车,司机反应不及时有很高相关性。一般来说,高速行驶过程中,前车刹车,本车应相应刹车规避危险。
因此,在检测前车的基础之上,我们又提出了刹车灯分类模型以识别前车刹车状态。高速情况下,一旦前车刹车且车距满足一定条件,系统即发出预警信号,提醒司机注意,这也是桔视ADAS特有的预警功能BLW(前车刹车提醒)。BLW可以显著提高高速情况下的报警TTC,提升报警及时性。
▍4.5 长尾数据挖掘
在桔视AIoT平台上,运行着碰撞检测、驾驶行为检测和DMS等算法,它们可以准确识别碰撞事故、驾驶行为和司机驾驶状态。通过多算法联动,我们在端上直接捕捉高危场景,并主动将数据回流云端。依托桔视近百万量级的安装量,通过驾驶行为检测算法,分析报警后司机驾驶行为,得出报警的转化效果。利用这些自动化的ADAS算法反馈,配合OTA升级方式,我们实现了高频率的迭代优化。
为了覆盖复杂场景的长尾数据,我们还搭建了一条在线难样本挖掘链路。我们利用碰撞事故前的ADAS报警情况挖掘未召回的事故数据,利用ADAS报警后司机反应挖掘虚警数据。更近一步,我们积累了一批ADAS播报干预但没有帮助驾驶员避免交通事故的极难样本,针对性优化报警TTC,提升报警及时性。
挖掘回流的数据在云端会自动导入标注平台和实验评估系统。在标注平台中,通过深度模型算法预标注+人工,不断扩充数据集。在实验评估系统中,算法捕捉播报后驾驶员的转化行为,结合驾驶员历史行驶数据,自动化评估ADAS在降发生上的影响面、线上准召等多维度指标。
通过这一整套完整的数据链路,我们实现了对长尾复杂场景的覆盖,用数据驱动整套ADAS算法的迭代。
本文总结了车载视觉团队在桔视ADAS方面工作,分享了桔视ADAS算法的整体架构。未来我们将在以下方面持续探索:
模型策略的持续优化,覆盖更多长尾复杂场景;
行人碰撞预警 PCW (Pedestrian Collision Warning);
桔视ADAS将不断提升,全力帮助司机师傅避免交通事故,为司机和乘客的安全保驾护航。
[1] Board N T S. Special investigation report-highway vehicle and infrastructure-based technology for the prevention of rear-end collisions[J]. NTSB Number SIR-OI/ll, 2001.
[2] Farmer C M. Crash avoidance potential of five vehicle technologies[J]. Insurance Institute for highway safety, 2008.
[3] Li Y, Chen Y, Wang N, et al. Scale-aware trident networks for object detection[C]//Proceedings of the IEEE international conference on computer vision. 2019: 6054-6063.
[4] Redmon J, Farhadi A. Yolov3: An incremental improvement[J]. arXiv preprint arXiv:1804.02767, 2018.
[5] Liu W, Anguelov D, Erhan D, et al. SSD: Single shot multibox detector[C]//European conference on computer vision. Springer, Cham, 2016: 21-37.
[6] Ma N, Zhang X, Zheng H T, et al. Shufflenet v2: Practical guidelines for efficient cnn architecture design[C]//Proceedings of the European conference on computer vision (ECCV). 2018: 116-131.
▬
团队招聘
▬
滴滴智能中台集结了中台产品技术、AI能力和体验平台技术,致力于为集团各业务线提供行业领先的专业服务,当前已沉淀了账号、支付、计价、触达、IOT、体验等核心中台能力;AI技术已深入应用于安全、智能运营、智能客服、智能驾驶等场景;持续通过搭建客服及体验平台等技术手段,提升用户体验问题的解决效率。智能中台是一支专业、多元、高效、务实的团队,坚持用技术赋能出行领域,力争成为业内多快好省的中台标杆。
滴滴车载视觉团队基于桔视近百万设备量和PB量级行驶数据,在交通安全和人身安全落地多款AI算法,包括桔视ADAS、车内安全、视频理解等。利用AI算法,不断努力让司机和乘客逐渐感受到滴滴的安全。
团队长期招聘视觉算法工程师、安卓开发实习生,欢迎有兴趣的小伙伴加入,可投递简历至 diditech@didiglobal.com,邮件请邮件主题请命名为「姓名-应聘部门-应聘方向」。
扫码了解更多岗位