自动化测试在美团外卖的实践与落地
1. 项目背景
2. 项目目标
3. 方案选型
4. 实践和探索
4.1 问题和挑战
4.2 前置条件准备
4.3 用例录制与回放的数据一致性
4.4 用例录制与回放的操作一致性
4.5 可溯源的自动化测试
4.6 用例的维护
4.7 跨App回放用例
4.8 埋点的录制回放
5. 测试流程
5.1 自动化任务触发
5.2 回放集群调度
5.3 断言服务
5.4 消息推送
6. 落地与实践
6.1 业务共建
6.2 实践效果
1. 项目背景
2. 项目目标
易用性:工具/平台的上手难度,使用复杂度应该尽可能的低,因为自动化测试的目的是提效人力,而不是增加人力负担。 平台支持:移动端至少需要覆盖iOS和Android双平台,同时基于外卖的业务特点,不仅需要对Native支持,也需要支持Mach(自研局部动态化框架)、H5、React Native、美团小程序等技术栈。 稳定性:自动化测试用例的执行需要有足够的稳定性和准确性,测试过程中不应因测试工具本身的不稳定而出现稳定性问题。 维护成本:维护成本很大程度上决定了测试工作量的大小,因需求产生变动或架构重构等问题时,用例的维护成本应该尽可能的小。 可扩展性:当测试方案不能满足测试需求时,工具/平台应具备可扩展的能力。
3. 方案选型
自动化测试工具那么多,自研是重复造轮子吗?
Appium是一个开源工具,用于自动化测试iOS手机、Android手机和Windows桌面平台上的原生、移动 Web和混合应用。它使用了各系统自带的自动化框架,无需SDK集成,Appium把这些系统本身提供的框架包装进一套API——WebDriver API中,可以使用任何语言编写Client脚本向服务器发送适当的HTTP请求。这让不同技术栈的人员都能快速上手编写测试用例,可以选择自己最为熟悉的语言,但是对于没有语言开发基础的人来说,还是有一定学习成本,而且这种方式在多人协作时并没有太大作用,为了保证自动化用例的可维护性,团队内部应该需要统一脚本语言。值得一提的是:Appium在iOS、Android和 Windows 测试套件之间可做的一定程度的复用代码。但是由于不同端界面及元素定位的差异,这往往是不现实的,更无法保证测试的准确性,所以这种所谓的“跨端”就变得毫无意义。 Airtest Project是由网易游戏推出的一款自动化测试平台,除了支持通过系统自带的自动化测试框架,还支持了通过图像识别的方式,对于非基于原生UI系统的一些游戏引擎提供了SDK的支持。其上手难度稍低,可以一定程度上通过IDE进行相关操作来生成简单的脚本指令。Airtest虽然基于图像进行控件识别,为跨端提供了一定的可能性,然而图像识别并不能达到人眼识别的准确度,除此之外移动端页面的构成和游戏页面也存在不小的差别,页面元素的展示规则和样式受屏幕分辨率影响较大,单纯依靠图像识别来进行元素查找成功率不高,无法保证测试的准确性。 SoloPi是一个无线化、非侵入式的自动化测试工具,通过录制回放的方式进行UI自动化测试,SoloPi虽然只支持Android,但是在录制回放的这种方式中,还是极具代表性的。传统的自动化测试工具由于需要编写测试脚本,所以存在着一定的上手难度(Airtest还是存在代码编辑的),便产生了SoloPi这种纯基于录制回放的自动化测试方式,将用例的所有操作事件进行录制,生成一个完整的录制脚本,通过对脚本的回放来还原所有的操作,从而进行自动化测试。但是,这种方式只能记录操作,而不能记录数据,在外卖这种数据驱动展示的场景下无法满足测试要求。并且外卖的业务要复用到美团App和大众点评App中,不同App存在部分视图和逻辑性的差异,SoloPi也无法支持我们“一端录制多端回放”的测试场景。
4. 实践和探索
4.1 问题和挑战
注:这里我们将生成的自动化脚本统称为指令,将平台生成的用例统称自动化用例,将录制回放变成可视化的脚本指令,让用例变的易懂、易维护。
4.2 前置条件准备
一键环境模拟,解决操作繁琐的用例执行前的环境准备。
进行一个用例的测试之前,往往需要做大量的准备工作,比如切换API环境,定位到某个地点,登录指定账户等。这些需要准备的环境条件我们统称为前置条件。我们知道,前置条件的准备操作通常都不是一两个步骤就可以完成的,比如账号登录/切换:我们需要进入登录页,填写手机号+密码/验证码,点击登录等一系列动作来完成这个过程,非常繁琐,并且每次测试我们都需要准备,重复性高。因此,我们给AlphaTest设计了独立的前置条件模块,将用例拆成了两个部分:前置条件 + 操作步骤。
与其它测试框架不同的是,AlphaTest采用了SDK集成,但对业务无侵入的方式,因此可以通过编写白盒代码来实现前置条件的自动配置,只需要在平台添加需要的指令,下发到SDK后,即可根据相关指令完成前置条件的自动配置,不再需要重复进行相关的操作。并且这些前置条件支持复用,也不需要每次进行用例准备时的重复配置。AlphaTest的前置条件,不仅有着基于美团内部服务及底层Hook的默认实现,也提供了API支持业务方自定义实现,比如实现不同的账号体系。
4.3 用例录制与回放的数据一致性
影响用例执行的不仅是代码,还有数据。
很多时候,自动化用例无法正常执行完成,可能是因为App回放时的本地数据及网络数据与录制时的不一致,从而导致用例执行流程的阻塞或App界面展示的不同。这也是大多数自动化测试工具/平台测试通过率不高的主要因素,因此要保证测试成功率,我们需要控制变量,排除由数据产生的影响。
App运行依赖的数据,有两部分——本地数据和网络数据:
本地数据是App在运行期间产生的缓存数据或持久化的存储数据。为了让用例在录制回放时都能够保持一致的本地数据环境,我们在录制和回放前都对App的本地数据进行了清理操作,这样用例在录制和回放的过程中,都可以保持一致的App初始化环境。 网络数据是驱动App交互呈现的基石,各种策略和API升级都会影响网络数据的响应,因此我们将用例录制过程中产生的网络数据也进行了录制,并将网络数据和对应的操作指令进行了关联和绑定,确定了数据产生的事件源。排除数据影响后,我们的自动化测试的成功率就取决于自动化操作的准确性了,这就回到了常见自动化框架范畴。
4.4 用例录制与回放的操作一致性
目标定位的准确性与手势定位的精准性。
UI自动化测试的本质就是代替人去自动的做一步步的操作(点击、长按、输入、滑动等)。录制与回放过程的操作能否一致,是否精准,直接影响测试的成功率,决定了工具/平台的可用性。
目标控件定位准确性:
操作行为是否一致首先需要确认操作目标是否一致。与一般测试工具/平台不同的是AlphaTest采用了ViewPath + 图像 + 坐标的多重定位方案。得益于SDK集成的方式,我们的ViewPath可以记录更多的元素视图特征和执行不同的匹配策略。定位过程中会优先使用ViewPath进行目标控件检索,当目标控件查找异常时,会结合图像匹配和坐标匹配的方式进行兜底查找,来确保界面变化程度不大时,也能准确的查找到目标控件。
手势定位的精准性:
有了基于控件的目标定位之后,对于一些常用简单操作手势,比如点击、长按、断言、甚至输入都可以做到很好的支持,只需要找到对应的控件,在控件所在位置下发相应的触摸事件即可。我们知道,App真正接收的触摸事件是屏幕上一个个精准的触摸点,在系统处理后,分发给当前App窗口,App在接收事件后再继续分发,直到找到事件的最佳响应者,后续通过响应者链对事件消化处理。那我们要还原一个触摸事件的坐标点要如何确定呢?由于我们确定的只有控件,所以这个点自然而然就成了控件的中心点了。
大多数情况下,这些都可以很好地进行工作,但是对于一些多响应控件重叠的情况,可能会产生预想不到的操作误差。为了解决这样的问题,我们把控件定位与坐标定位进行了结合:基于纯坐标的定位是一种定位精准度非常高的定位方式,但是稳定性非常差,只有在屏幕分辨率完全一致且回放页面控件位置完全一致的情况下,才具备足够的可靠性,但这往往是不现实的,对测试环境机器量要求过高。
基于控件的定位,又存在着精准度不够的问题。使用坐标定位,如果定位区域足够小的话,那么受屏幕尺寸的影响就会越小,只需要确定在小范围内的相对位置即可。而基于控件目标的定位,恰恰可以把目标区域缩小到一个指定区域,我们刚好可以将二者结合起来,同时解决定位精准度和稳定性的问题。
对于复杂手势的支持,我们同样可以采用微分的方式,将一个复杂手势拆成多个简单手势的组成,比如我们可以将一个滑动操作的定位拆成两个部分:起始位置和终止位置,而这两个位置的定位,就变成了两个普通的单点手势操作定位了,可以通过上面提到的一个目标控件+相对坐标的形式进行定位。核心思想都是将基于屏幕坐标点的定位操作,缩小的目标控件的区域范围内,以达到不受设备分辨率的影响,实现操作行为一致的效果。
4.5 可溯源的自动化测试
测试全流程记录,问题溯源一键即达。
测试的目的是保证App运行的稳定,测试过程中出现Bug导致测试未通过时,需要溯源问题原因,发生的场景,乃至具体的执行步骤。这也是大多自动化测试工具/平台所欠缺的,即使发现了问题,排查工作也很困难;这个问题在手工测试的时候,更为严重,往往因为很多缺陷无法复现而难以定位。
AlphaTest的自动化用例最小执行单元是操作指令,我们将测试过程的每一条指令的执行状况和过程中的界面快照进行了记录,并在指令执行失败时,对异常原因进行了初步分析。然后将整个用例的执行组合成了一份完整的测试报告,可快速溯源问题步骤。除此之外,我们还增加大量的日志上报,并将整个用例测试过程进行了视频录制,来进一步帮助疑难问题的排查。真正做到了用例回放测试可溯源。
4.6 用例的维护
自动化用例需要持续地投入人力来维护么?架构升级,页面重构,用例需要全部重新录制么?
因自动化工具/平台众多,阻碍长期落地使用的一大问题是用例维护成本高,很多工具/平台让我们即便是使用上了自动化,但还需要持续投入人力维护用例的更新,最终的提效收益微乎其微。对于用例更新维护,我们可以梳理划分成三个场景:
需求发生重大变更,整体的业务执行流程及相关的校验点都需要进行大量的调整。对于这种情况,无论是何种自动化测试工具/平台,都是需要正常进行用例变更重录以适应新的需求。 需求发生略微变更,业务流程基本一致,需要调整的校验点、操作以及数据或不影响整体流程的步骤。对于此场景,AlphaTest通过指令编辑器与操作录制,支持指令增删改以及数据和场景的还原,帮助用户快速的进行用例调整,而无需重新录制用例。例如:修改网络数据字段、视图变更路径、断言替换目标等。
和业务需求不同,我们的技术实现也会发生迭代。随着App技术架构不断的演进,经常会面临着架构升级,页面重构甚至技术栈变迁等这样的技术升级。这些变动需要覆盖大量的测试用例,其中大量的自动化用例又可能会因为变动而导致失效,需要重新录制。为此,AlphaTest设计一套利用相近分辨率机器进行用例自动修正的功能:利用图像 + 坐标进行二次识别定位,元素定位成功并校验通过后,生成新的ViewPath,更新对应的用例指令,对用例进行自动修复,修复后可在任意回放。
4.7 跨App回放用例
同一份代码运行在不同的App上,是否需要重新编写多份用例?
美团系的一些业务可能会复用在多个App上。比如外卖有独立App,但同时也要复用到美团和点评App上,这些功能,几乎共用一份代码,而测试人员却不得不对每个App上的业务功能都进行测试,维护多份用例。由于业务本身实现是一致的,那我们可以通过适配不同App之间的差异,来让一个业务Case可以横跨多个App回放,这便可以将成本缩减好几倍,这些差异主要体现在:
前置条件和初始页面:业务的初始页面进入路径不同,例如外卖App打开App就进入到了外卖首页,但是在美团App中就需要从美团首页跳转到外卖频道。同时由于不同App的样式风格、设计规范、业务特性等因素,也会造成首页代码逻辑和视图层级的差异。 AB实验配置:不同App所配置的实验可能不同,不同的实验会导致不同的样式和代码逻辑。 网路接口映射:不同App中相同业务场景涉及的接口有所不同。 页面Scheme映射:不同App中相同页面的跳转Scheme也不相同。
AlphaTest平台支持App维度各项差异数据配置,当SDK检测用例回放环境与录制环境不一致时,会自动进行映射适配,从而让用例运行到了不同App上。
4.8 埋点的录制回放
除了功能测试,我们在日常开发和测试的工作中,还会面临另外一个比较重要的问题就是埋点测试。因此,我们在自动化的基础上扩展出埋点自动化测试。埋点自动化测试的核心思想是,通过对比录制时期和回放时期的埋点上报时机和上报参数进行判断。为了保证埋点自动化测试的稳定性,我们主要采用以下的障机制:
字段规则配置:埋点自定义参数千姿百态,甚至有些字段每次代码执行都不一致,如果进行完全匹配结果注定是失败的,所以我们在AlphaTest平台提供了埋点字段规则配置功能,通过人为设置的方式来避免埋点自定义参数校验失败。App重启进入录制状态时,用户就可以操作App,平台会记录用户的操作行为,当产生相应的埋点日志的时候会将日志信息打印在日志区域(如下图17所示),在该过程中也会对埋点日志进行一定的校验。重点将操作时机、埋点日志一并保存到服务端。
埋点时机校验:针对时机校验,程序并不支持埋点曝光的"1px曝光","下拉刷新曝光","页面切换曝光","切前后台曝光"这些规则,主要的原因是每一个业务方在对埋点曝光的规则都是不一致的,而且该规则的实现会极大耦合业务代码。在针对时机校验我们目前只支持:
[1] 点击埋点上报时机校验,程序通过事件监听和埋点类型信息来判断点击埋点上报的时机是否是在点击的操作下产生的,如果不是则报错。
[2] 埋点重复上报校验,针对一般情况下用户一次操作不会产生两个相同的埋点上报,所以程序会校验某个事件下发生的所有埋点日志进行一一校验,检测是否具有2个或多个埋点日志完全一致,如有发生则会上报错误。
结果校验:回放完成后,我们会对比录制和回放时的埋点数据,根据配置好的字段规则校验埋点上报是否符合预期。
5. 测试流程
AlphaTest的核心测试流程始终聚焦在用例的录制与回放环节,整个流程涉及到自动化任务触发、回放集群调度、断言服务、消息推送等核心模块。
以UI自动化和埋点自动化的流程为例,AlphaTest以业务团队为基本单元,可以和各团队的测试用例进行关联,定时同步状态。同时利用需求评审线上化做为基础,将自动化用例和研发流程中的PR、集成打包、二轮回归等节点相结合,定时触发自动化用例并将结果报告推送给相关负责人。
录制用例:
[1] 首先在AlphaTest平台选择要录制的测试用例,打开待测试App进行扫码即可进入用例待录制状态,此时可以设置用例需要的前置条件(账号信息、Mock数据、定位信息等),之后点击开始按钮后,手机便会自动重启,开始录制。
[2] 用户按照测试用例步骤,正常操作手机,AlphaTest会将用户的操作行为全部记录下来,并自动生成语义化的描述语言显示在AlphaTest平台上,与此同时产生的网络数据、埋点数据等校验信息也会一并存储下来。
[3] 在录制的过程中可以快捷的打开断言模式,将页面上想要校验的元素进行文本提取/截图等操作记录下来,用于后续回放过程中对相同元素进行校验。
[4] 测试步骤全都执行完毕后,点击保存按钮即可生成本条自动化用例。
用例回放:
[1] 扫描对应自动化用例的二维码即可进行回放,回放过程中会将用户录制的行为、网络数据进行一比一还原,并且辅助有全过程视频录像,用于后续问题排查和溯源。
[2] 回放过程中碰到断言事件时,会将断言的元素进行文本提取/截图,上传至AlphaTest平台。回放完成后,会将回放时候的断言截图和录制时的断言截图进行图像对比,作为整个测试结果的一项。
[3] 回放过程中的埋点数据也会一并记录下来,并和录制时候的埋点数据和上报时机进行对比,自动提取出其中的差异项。
[4] 回放完成后,会生成完整的测试报告并将结果通过OA推送至相关人员。
回放计划:二轮回归测试中,回放用例数量多达几百条,为了做到全流程的自动化,我们提供了回放计划的概念,可以将多个自动化用例进行编组管理,每一组就是一个回放计划。触发一个计划的回放即可自动触发计划内的所有自动化用例。整个计划都执行完成后,会通知到指定的计划负责人或群组。
5.1 自动化任务触发
在整个外卖C端敏捷迭代的流程中,打包平台主要承接了业务需求发起到需求交付的流程,作为AlphaTest的上游平台,可以提供打包信息并触发自动化用例回放任务。以下简单展示AlphaTest与敏捷协同平台的交互流程:
5.2 回放集群调度
整个测试过程真正的解放双手,才能算的上是自动化。因此,我们着手搭建了自己的自动化机器集群,可以 24小时不间断的执行测试任务。为了保证任务回放能够顺利完成,我们在不同阶段增加了相应的保活策略。在极大程度上提高了任务执行完毕的成功率。
执行流程:回放任务通过用户在平台手动触发或者二轮自动触发。新增的回放任务经过任务拆分系统拆分成n个子任务,加入到不同设备的回放任务队列中。每个子任务经过占用设备->安装待测App->应用授权->打开scheme->上报结果等步骤完成回放操作。 节点保活机制:针对回放流程中每一个节点,失败后进行N(默认为3)次重试操作。减少因网络波动,接口偶现异常导致的回放失败数量。 子任务保活机制:每个回放流程,失败后进行N(默认为3)次断点重试。减少因设备异常,SDK心跳上报异常导致的回放失败数量。 父任务保活机制:一个父任务会被拆分成N个子任务,当其中的一个子任务S1在节点保活机制和子任务保活机制下仍然执行失败之后,父任务保活机制会尝试将子任务S1中未执行完毕的用例转移到其他活跃状态的子任务中。减少因设备异常,设备掉线等问题导致的回放失败数量。
5.3 断言服务
用例断言是整个自动化用例验证的核心步骤,我们的断言服务依据用例的实际情形可以分别进行文字与图像的断言。其中图像断言服务依托于自建的图像对比算法服务,可以高效进行录制回放断言图像的对比,图像对比准确率可以达到99%以上。
录制阶段:
[1] 录制时增加断言决策信息的自动采集。
[2] 和正常流程一样,提取区域的截图信息。
[3] 如果是文本组件,则提取文本内容,如果是图片组件,则提取图片二进制编码或图片URL,同时提取区域内的布局信息。
回放阶段:
[1] 回放时,提取和录制时一致的内容(文本信息、图片编码、区域截图、布局信息)。
[2] 将回放时的断言信息上传至AlphaTest平台。
[3] AlphaTest平台对断言结果进行校验,首先是基于模型的图像对比,如果判定为一致,则直接标记结果。
[4] 如果判定为不一致、则匹配“断言失败数据集”,如果能够匹配上,则标记结果。如果匹配不上,则需要人工选择匹配类型。
[5] 匹配类型为“文本校验”、“根据图片信息校验”、“人工校验”。如果前两项判定为一致,则直接标记结果。如果“人工校验”的结果为确实两张图不一致,则直接标记结果,结束。
[6] 如果“人工校验”结果为一致,既上述所有判定都不准确,则需要人工对两张图中判定错误的原因进行分类(具体类型待定),同时将断言存储到失败数据集。
[7] 模型自动训练,当数据集超过一定的阈值、通过定时触发、或者手动触发的方式,触发模型自动训练,训练完成后自动部署到AlphaTest平台,不断迭代。
图像服务:图像对比模型采用基于度量学习的对比算法,将图像对的一致性判别转换为图像语义的相似度量问题。度量学习(Metric Learning),也称距离度量学习(Distance Metric Learning,DML)属于机器学习的一种。其本质就是相似度的学习,也可以认为距离学习。因为在一定条件下,相似度和距离可以相互转换。比如在空间坐标的两条向量,既可以用余弦相似度的大小,也可以使用欧式距离的远近来衡量相似程度。度量学习的网络采用经典的Siamese结构,使用基于resnext50的主干网络提取图像的高级语义特征,后接spplayer完成多尺度特征融合,融合后的特征输出作为表达图像语义的特征向量,使用ContrastiveLoss进行度量学习。
[1] 预训练过程:resnext50网络是使用ImageNet的预训练模型。
[2] 数据增强:为增加数据的丰富性、提高网络的泛化性能,数据增强的方式主要包括:图像右下部分的随机剪切和添加黑色蒙层(相应改变图像对的标签)。这种数据增强符合控键截图实际情况,不会造成数据分布的改变。
[3] 对比损失:对比损失函数采用ContrastiveLoss,它是一种在欧式空间的pair based loss,其作用是减少一致图像对距离,保证不一致图像对的距离大于margin,其中margin=2。
[4] 相似度量:相似度量也是采用计算图像对特征向量的欧式距离的方法,并归一化到区间[0, 1],作为输出的图像对相似度。
5.4 消息推送
消息推送作为回放流程的最终环节,我们依赖于美团内部自建的消息队列服务与OA SDK消息推送能力,可以进行测试报告的实时推送。在此之上,还可以针对不同团队的推送诉求,做消息模板的定制化。
消息定制:消息推送与触达的核心,是满足业务诉求;不同业务对自动化测试报告中各项指标的关注点不同,这就需要AlphaTest具备消息推送定制的能力;将消息推送的模板以配置文件的形式提供出来,不同的业务使用不同的业务消息配置文件;再利用OA提供的图文、多媒体等消息推送能力,可以将自动化测试报告的各项指标自定义拆分;除此之外,消息还需要减少冗余,在这个信息泛滥的时代,我们愿意为无孔不入的消息、通知做减法,只将最重要、最核心的消息推送给最需要的人,既可以推动自动化测试流程的高效流转,又可以让各相关业务人员享受到自动化测试能力的便捷性。
一键触达:以往的研发人员冒烟测试,主要依赖于测试人员在用例管理平台建立测试计划,研发人员根据用例进行手工用例测试结果标记,之后去提测完成后续流程。这中间缺失的主要环节是,难以对研发人员冒烟测试的质量进行把控。而AlphaTest正可以解决此问题,流程转换为,研发人员在敏捷协同平台触发一键提测流程,调用AlphaTest的自动化测试能力对冒烟用例进行自动化测试回归,完成之后将测试生成的测试报告同步提测平台,作为研发人员冒烟的结论依据,同时在冒烟过程中发生的问题,也可以及时通知到对应的研发人员与测试人员进行改正。既保证了质量,又避免了人力空耗。
6. 落地与实践
外卖C端主要承担了用户在App端点餐、下单、配送的所有核心流程,场景繁多、业务复杂,这也给测试人员的版本测试带来了诸多挑战,其中最核心也最耗费人力的便是二轮回归测试环节。目前,C端采用的双周敏捷迭代的开发方式,每个迭代周期给测试人员用来进行二轮核心流程回归的时间为三天,为此C端测试团队投入了许多人力资源,但即便如此,仍难以覆盖全部流程;而AlphaTest的设计初衷也正是为解决此问题——UI测试流程全覆盖及自动化验证。
6.1 业务共建
用例的转化与维护
AlphaTest 在外卖C端测试团队的落地初期,我们采用了共建的模式,也就是业务研发人员与对应测试人员共同来进行用例录制与维护的工作;推荐这种工作模式的核心原因是,在C端功能迭代流程中的二轮周期的原有工作模式为,研发人员进行二轮冒烟测试,完成测试之后提交二轮包交由测试人员进行二轮回归测试,所以这本来就是一个双方都需要参与的环节;而二轮测试作为版本上线前的最重要一个测试流程,保证核心流程的正常也是测试人员与研发人员所关心重点。
经过多轮的使用与磨合之后,这种模式被证明是行之有效的,在整个C端二轮用例的转化过程中,测试人员主要负责了用例的录制与迭代流程,研发人员则主要负责版本回放数据的统计及问题用例的发现与解决。
外卖二轮落地情况
目前,AlphaTest已经在外卖多个业务落地,支持了大于15个版本的二轮回归测试,用例覆盖率达到70%。现已覆盖了Native、Mach、React Native、美团小程序、H5 技术栈的测试工作,能力上可进行支持:UI自动化测试、埋点自动化测试、动态化加载成功率自动化测试、无障碍适配率自动化测试。
未来,我们会朝着“智能化”和“精准化”两个方向探索,覆盖更多测试场景的同时,更进一步提升测试人效。
6.2 实践效果
7. 参考资料
推荐阅读: