数据分析方法论:数据异常归因,该怎么分析原因?

大数据科学

共 2611字,需浏览 6分钟

 ·

2021-11-29 01:41


为什么指标变化了xx%?


这个问题其实很多同学在日常工作中经常会遇到。

这个就涉及到数据异常归因了,异常归因怎么做呢?其实很简单,能按照下面四步,花点时间,一定能找到原因。


01

数据准确性及损失评估



  • 确认数据是否准确:数据来源,数据统计口径等;

  • 数据的波动带来的影响评估:损失评估、对用户、KPI等可能造成潜在影响。



02

同期事件评估



对指标异常发生的同时发生的事件进行追踪及数据查看,主要分为内部原因和外部原因两部分

2.1.外部原因


  • 竞品:竞品最近的动作,是否举办活动

  • 政策:政策监管、法规变化

  • 社会:节假日、社会热点等

  • 自然:季节性、周末等时期变动


2.2.内部原因:


  • 产品:版本迭代可能存在bug、推荐算法端的更新、注册、登录或其他关键行为的路径变化等等

  • 运营:push推送频率、内容等、活动、运营策略更新等

  • 推广:渠道更新呢、投放力度、是否筛选作弊用户等等



03

维度细分/业务流程分析



要从广义上理解维度。首先时间维度,分天、星期、月以及24小时看。

天维度就是拉长周期,比如一年看每日的数据指标,看趋势,看每天中位数,判断异常时间点。也许,趋势图拉出来,就立刻能锁定哪段时间数据异常。 

至于其他的时间维度,都是看人在不同特定的时间,数据上不同的表现。星期代表工作日周末,月度可能有财务结算、工资发放等,24小时表示上班时间、下班时间、白天、晚上等。 


时间维度,很特殊,是一定要看的,除时间这个特殊维度之外,剩下的就是一定要看跟业务结合比较紧密的维度。

维度选取上,新同学最容易犯的错误,就是不加思考一顿细分下钻,恨不得把数据明细一条条拿来归因。一定要尽量避免维度爆炸,数据也没有必要下钻每个维度,本来是要解释原因,最后变成爆炸的一堆维度,那不是舍本求末了吗。

那到底哪些维度是跟业务相关的呢?

除了软件版本、地区、渠道、用户的基础标签之外,还有更重要的几个维度,请一定记住:

产品维度:目的是看数据异常来自哪个产品线?比如美团首页,不要小看,每个入口都是对应美团一个大部门。一定要计算出,每个产品线的影响度,是优选?外卖?闪购?酒旅?机票?

场景维度:目的是看数据哪个场景的波动带来的影响?是关注流、热门推荐还是评论流? 

客户行业维度:如果是收入一定要看客户的所属行业,目的是看是因为美食?服装?日化? 

当然,每个公司每个业务,影响因素差异很大,比如车企行业地域维度是首要拆分的维度


04

策略落地及复盘



策略需要针对具体原因出发,对症下药,这里便不再赘述。但是一定注意的是,策略后续是否可行?相关的数据后续如何发展?需要做持续的追踪及复盘。


05

实战案例



那假设boss问你最近一周成交订单量较上周有7%的下降,我们通过这四个步骤该怎么去分析呢?



1.查看数据的准确性、评估损失:
从数据源、数据的统计口径等角度确认是否是统计上的bug引起的数据呈现错误;与同比、环比时间对比,是否正常;

如果继续发生下跌,会对KPI造成何种影响,做出一个评估。意义在于评估本次数据下降造成的后果大小

2.整理在下降对应同一时间周期内的内外部发生的事件,寻找最有可能的原因所在:

外部的话主要从政策、竞品、热点等角度思考。可能的原因有竞品app举行活动导致我方购物用户流失?节假日过去?或者其他热点导致的数据正常的变化?

内部的话可以从产品、技术及运营三个方面去思考:产品方面可能会有功能、策略、样式、版本的原因,新版本的上线导致部分老机型/未更新用户无法使用?运营方面着重关注近期的活动、渠道、push是否有变化,如果前期刚举行大促会提前透支用户的消费力、进而导致用户的GMV下降等原因。
3.进一步提取维度对指标进行拆解:
从用户属性的变化、机型、省市版本,基于第二的假设和数据查看进一步分析原因;

同时也从用户行为路径上思考,从浏览到收藏到加入购物车到付款到确认,观察每一步的转化率。


4.分析相关原因和结果
分析相关原因和结构后,给出相关业务建议、策略,并追踪业务的动作和继续观察数据是否异常。


06

延展



当然就这个问题不同的人有不同的分析方法,引用著名的辛普森悖论案例,这个问题也可以这么分析:

当boss问你最近一周成交订单量较上周有7%的下降时,


告诉boss:首先,我要确定这个5%的上跌是真的在跌,也许看似订单量绝对值是在跌,但实际拆分下来后,业务或许是在上升,这个5%的波动是由于用户结构上的变化带来的。 


领导紧张了,问: 怎么会? 


你一看,boss上套了: 是这样的。订单量=新用户订单+老用户订单。


你再接着跟boss说: 你看哈,假设我们正常情况下每天日活1000人,每天100单,其中新用户每天0.2单(一般拉新有羊毛可以撸),老用户每天0.08单。某天我们看订单量下降到95单了,很慌,因为我什么都没做啊,价格也没调,库存也没动,不过当我们拆分新老用户后,发现这一天拉新少了100人,老用户呢,从800个人变成1000个人。

 
这时候,你看了一眼,陷入深思的boss,然后继续说: 好!假定,新老用户每天贡献的订单量前后一样的话,我们发现确实减少的5%的订单,其实主要来自我们近期广告投放力减少,造成订单量贡献度较高的新用户减少了,因为拉新贵啊,一个APP激活,几十元,甚至几百元都可能,所以增长部降低了拉新的预算,并拿出拉新预算的一半尝试投放APP老用户拉活,因为成本低,转化效果稳定,虽然整体订单下降了5%,但其实是发现了一个,更高ROI的执行路径。


必须all in老用促活啊,这个是一个很好的优化点!!或许,应该让老板肯定这种策略,下面同学才敢甩开膀子执行。


首先,让负责用户增长的同学,把拉新的广告可以先停一停,拉新拉新,撸完就跑,得要留存啊。同时,也把这事儿,告诉产品和运营,出一套解决方案,一起想办法,看能不能在这个策略基础上,再提升下老用户的订单转化率,这是重中之重啊!


钱要花在刀刃上,再有钱的老板,广告烧起来也肉疼啊。 


这个例子引用的是著名的辛普森悖论,大家感兴趣的可以搜一下。

更多阅读



  1. Excel图表技巧:你拍三 我拍三,动态图表超简单

  2. 一文了解数据分析师视角下的数据中台

  3. 面试必备的数据分析方法和思维,错过了再等一年


浏览 179
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报