阿里巴巴“人脸门禁”测试揭秘：实时质量监控与分析-技术圈

继上篇人脸算法分析介绍之后，本文将继续带来人脸通行质量保障的第二部分--实时全链路的监控与分析

背景介绍

园区人脸门禁自18年上线以来，已经部署了多个园区，每天承载数以万计的小二们园区内的频繁通行；然而随着庞大的阿里巴巴经济体的快速发展以及我们的典座会务平台的产品化，我们的用户数量和应用场景在不断增加，因此用户体验变得越来越重要。在上篇介绍了人脸算法测评的标准化方法之后，本次带来的是下篇---实时质量监控与分析。

人脸通行-实时质量监控与分析

全链路实时监控分析就是通过监控通行链路各个模块的调用时间和成功率，来快速发现链路中的耗时点和问题点，以此来提升通行体验

采集全链路日志
数据清洗&数据汇聚
数据查询
数据分析

人脸通行-实时质量监控与分析

人脸通行调用链路长，涉及到的子模块比较多，而当前阶段我们一直在追求极致体验，也就是说我们需要能找出影响用户通行体验的"凶手"；另外人脸通行过程中需要依赖人脸抓拍设备，而设备的安装、部署角度等也会影响到用户通行结果，因此我们需要能够找出通行效果差的设备，对设备的安装部署进行优化；最后人脸通行还受底库照片质量影响，对于底库照片质量较差的员工，其通行效果也会拉低整体人脸通行的效果；因此我们选择通过分析全链路日志，来洞察全链路线上运行的实时质量情况，帮助业务分析产品异常的原因和评估线上产品质量；

实时质量魔洛哥（人脸通行-实时质量监控与分析）通过实时质量大屏来展示当前线上的实时质量总览，大盘和细分质量指标，同时通过质量查询对单次或者单个设备的通行结果进行详细分析。

平台架构

通过获取SLS日志，进行日志链路实时监听，对日志数据进行过滤、汇聚和存储，存储后通过质量模型对数据进行质量的多维分析，最后能够从质量角度给出当前线上的质量情况，并且针对单个事件依据质量模型给出事件产生的详细原因。

通行实时质量大屏

实时质量大屏就是从全局角度出发，通过多维质量指标和TopN的异常统计进行线上质量的实时分析。

通行质量查询

质量查询是针对单个事件的一次查询，查询出单个事件的多维详细质量情况，并且通过质量模型给出单个异常事件的原因，以及事件中的异常指标。

人脸通行-实时质量监控分析业务价值

人脸通行接入实时质量监控分析后，助力门禁2.0项目，找出人脸通行全链路中影响通行结果的链路模块，开发可以根据这些影响因素有针对性的进行链路的优化和改造，同时也能够验证改造优化后的效果是否能够达到预期；总之可以通过实时质量大屏和质量查询能力，快速的找出线上的问题，并分析出产生问题的原因。

阶段性结果

人脸通行-实时质量监控分析上线后，主要解决了以下线上隐藏问题:

1、蚂蚁S空间人脸通行平均总体时长高于其他园区，而通过实时质量全链路分析，发现链路子模块活体检测异常，其检测时长和检测失败率均高于其他园区，针对这个问题，开发有针对性的进行了修复，最后又通过在实时质量监控分析大盘中的灰度验证，确实达到了效果。

2、EFC园区交付，园区交付验收时发现通过率较低，通过实时质量监控大盘，发现链路中质量检测模块失败率较高，针对该模块进行修复后，在实时质量大盘上进行了灰度验证，结果符合预期。

3、全链路架构升级，为了提升通行体验，对人脸通行全链路的架构进行了升级，升级后在实时质量大盘上进行观察了各模块的数据，对稳定性和结果指标进行了验证。

4、目前线上的硬件数量较多，对线上的硬件进行实时监控分析，对于线上问题能够及时发现，快速分析给出原因。

展望-未来规划

本文针对人脸算法测评提供了一些测试方法和测试工具，但仍然存在一个问题，就是测评结果与实际上线还是会有一定的误差，目前统计下来误差会在5%之内，通过分析得出误差主要由于人员底库照片质量和设备安装部署环境的影响，但是这些又是线上实际存在的问题，对此虽然丰富了样本集的场景，但是并没有真正解决这个问题，因此一直希望欢迎大家一起交流解决这一问题；另外对于人脸通行失败的原因，目前都是通过特定规则得出，通过规则分析出的原因较表面，希望未来能够引入智能化的方法，能够通过综合分析给出更加深刻细节的原因，另外目前我们都是根据线上的问题找出原因，后续希望能够借助智能化方法提前发现线上的问题，对问题进行分析后，给出问题的原因和解法，使得整条链路能够形成一个完整的闭环。

点个“在看”支持一下?