六个实例,看懂高阶数据分析,该如何做
共 3635字,需浏览 8分钟
·
2021-05-16 05:25
有同学问:领导总让做“有前瞻性”的分析,不要说那些“大家都知道的事”。可到底什么是前瞻性?有时候明明写了预计未来情况,可还是被批判为:没啥前瞻性。真不知道咋办了。——今天系统解答一下。
先看看一个简单的例子如下,看图回答问题:6月GMV是多少???
有多少同学是脱口而出:400 的??!!
常见的问题,就从这里开始。
1
没有前瞻性的分析,长这样
▌错误一:复读机型。
看到上图数据,写出来的是:
● 月均GMV 720
● 最大值1000
● 最小值500
● 中间值700
这肯定没有任何前瞻性哈。这根本就是把图表又用文字复读了一遍,只要业务方不是瞎子,能看到数字,都会觉得这没啥意义。
▌错误二:惯性思维。
还是上图数据,你认为6月GMV是多少?
有多少同学是脱口而出:400
这就是典型的惯性思维。其实只有一年的数据完全不说明问题,但是人们就是会很惯性的认为:过去跌的就一定跌,过去涨的就一定涨,特别出现这种5432顺序排列的数据,惯性的就会认为下个数字是1……其实这正是数据分析要打倒的大敌。因为如果我们引入过往年份数据,很有可能曲线长这样:
这时候还有谁说6月是400的……很有可能1-5月的只是正常的业绩波动而已。所以单纯用惯性思维判断,完全没有体现数据分析的价值,做的结论还极有可能是错误的。
▌错误三:习以为常。
还是上图数据,很多同学看了三年趋势,然后脱口而出:因为过去6月份会涨,所以今年6月份也会涨……
这种说法,很有可能被业务评价为:我早知道了!你分析了啥!
因为历史规律,特别是这种宏观迹象这么明显的规律,是个人只要不瞎都看得到,说出来当然没啥意思。况且,谁说去年涨,今年就一定涨?万一今年涨得少,甚至跌了呢?仅凭一根线又怎么判断呢?
2
真正的前瞻性,是定性预测
本质上,所谓的前瞻性,是需要我们做一个定性预测。虽然没有精确的数据或模型,但是能通过分析,判断未来走势(相对应的,建数据模型详细计算的是定量预测)。
做预测的关键,是找到影响未来的因素。这些影响因素,才是支撑指标曲线的真正支柱。支柱倒了,指标自然下跌;支柱稳固,指标自然高企。所以,想做好预测,不能只对着数据本身就数论数,而是得找到数据背后的原因。
比如上图中6月,11月大涨,可能有几个原因:
● 行业因素:行业本身就是夏季、冬季前有一波高峰(比如旅游相关机票、酒店、住宿,赶在寒暑假前大量预定)
● 促销因素:618,双11是主战场,要拼命做大GMV
● 产品因素:这个行业每年6,11月上新品
● 其他因素……
在做预测之前,我们要先了解业务,掌握影响因素。根据影响因素的可辨识程度,大致可分成三类,我们一类一类来看:
▌第一类:宏观事件型
宏观事件往往备受关注,媒体会大量报道,因此辨识度很高。但相应地,辨识度越高的东西,讲出来价值就越低,大家早知道了嘛。因此在做定性预测的时候,提及宏观事件,是个必选项。提了,不一定被认可。不提,一定被视作“你都不懂业务”“这么明显都看不到!”
有些坏习惯会影响做数据的同学关注到宏观事件。比如很多做数据分析的同学只看数据类文章,公众号只关注《数据分析XX》《数据挖掘XX》《python XX》反而每天沉迷在数字和代码里,对行业发生了什么看都看不到很容易被批了。
需注意,之所以是定性预测,因为很多宏观因素的影响可能无法预测。循环出现的,可以看过往的历史规律(比如节假日影响、行业周期性波动)但是个案出现的,就很难去预测。比如突然出台新政策,禁掉了某些业务,出现了疫情等,这种就无法预测效果,只能去研究政策细节,看看到底影响面有多大,做个预警。
▌第二类:投入产出型
投入产出型事件,往往是:大家都知道有影响,但具体影响多少不清楚。这时能体现一定的数据价值。有前瞻性数据支持,可以方便业务安排活动,也能准备相关人力物力资源(比如做促销,商品、客服、服务器流量,有可能都要准备)。这种前瞻性是非常有帮助的。
计算投入产出的常用方式有三种(如下图)
需注意的是,很多同学一提“活动效果预测”,就急匆匆想建模型或者做抽样,用第二、第三种方法。
在现实中,只有封闭了信息渠道的营销活动才适合这么干(而且需要余留较多时间准备数据)。很多促销活动,比如双十一大促、周年庆大促,因为宣传规模太大,会产生滚雪球效应。用看似精准的方法预测的反而会偏小、失真。
比如新产品上市,可能在上市前完全保密,也没法做太精细的分组测试。所以做定性预测的时候,第一种方法用得更多。
投入产出型事件分析还有个用途,就是前瞻性指出问题。我们都知道,业务部门干事情不见得是为了效益最大化,很有可能有政治任务——
比如:
● 老板要大力转型新零售,所以非得强迫客人微信下单
● 我们的KPI是抓老用户,所以效果不好也得强行做
● 部门费用不够了,但活动还得做,所以券全部面额减半
这时候,如果有过往分析经验指出以下问题,就是有前瞻性的:
● 微信下单就是垃圾,影响销售
● 老用户响应率就2%,咋做都是死
● 面额减半,响应率不是减半而是减3/4
前瞻性指出问题,就能提醒业务部门注意风险。也不要在事后纠结:“到底是什么原因做的不好呢?”——我们已经早早提醒过了哈。只不过,这种前瞻性虽然有价值,但不一定受业务欢迎(还有可能吃板砖)。大家在实操中见机行事,量力而行。
▌第三类:内部结构型
再深层次地看这个问题,就是:所谓的自然增长率,根本是不存在的。在数据上看,可能指标“自然”就会涨,可在业务上看,所有的增长,都是在XX条件下的增长(如下图):
关于自然增长率,可以戳《数据分析终极一问:自然增长率,到底怎么算才合理!》
除了宏观环境外,产品,促销,用户基础,用户分层这些,就是预测需要的XX参数。参数的情况直接决定了业绩的走向。所以当内部影响因素发生结构性变化的时候,自然业绩会发生变化。
只是很多内部结构性变化是慢性的、持续的、微观的,所以难以观察。这就需要深度分析,不止关注整体趋势,更关注构成整体的各个因素的结构。
内部结构型问题很难前瞻,难在:到底是个案还是趋势,很难在一次分析中观察到。比如我们总是说:渠道下沉,新生代需求变迁,兴趣转移等等概念,可真具体到某一月某一日的数据上,你真把特定群体抽出来看,反而数据上差异不大。
有时候自以为观察到一个变化,可持续看几天,丫又消失了……短期内,永远是宏观事件&投入产出型影响占主导。所以想要观察到一个内部结构变迁的影响,需要长时间观察。
3
小结
看完三种类型,大家会发现,领导们想看的,都是第三类问题。是滴,通过细致的分析,看到深层次问题,讲出来没人知道的惊天秘密,听起来多厉害。
可实际上没那么理想。业绩指标的波动,从来都是多种因素综合作用的结果。并非每次变化都一定有深层次的原因,有可能就是自然波动、某个产品/活动做烂了、没钱还装逼,道理就这么简单。能区分出来关键因素,提示问题才是重要的。
所以,数据分析的价值,不是神神叨叨地讲没人知道的秘密。
● 了解业务,区分事件
● 能量化的,量化预测
● 不能量化,评估范围
● 做好监控,提示问题
以上。都能做到了,就是最好的前瞻性。
当然,有同学会问:有定性的预测,那有定量的预测吗?当然有,而且有不止一种做法,不止一种算法。