数据分析中,各个因素的影响度是什么?
“上周的订单量怎么样?”
“南部、西部和北部的订单量环比增长分别是7%,7%,20%,东部地区环比下跌了3%。”
“嗯,听起来不错,那全国的订单量环比上涨了多少呀?是不是超过10%了?”
“emmm,全国订单量环比增长了3%。”
“不是北部涨了20%吗?东部才下跌3%,其他两个地区也都上涨了7%,匀一匀怎么也要超过10%了”
“因为东部地区的订单量太多了,下跌一点对整体的影响都很大;但是北部的订单量太少了,增量巨大也没办法影响整体的表现”
“那四个地区的影响分别是多大呢?”
“影响多大?”
“对啊,比如,刚刚你不是说东部订单量轻微的下跌都对整体有很大影响吗?作为一个数据分析师,你应该告诉我量化的数据,这个很大,究竟是多大?”
“哦……我去算算。”
影响度到底怎么计算吗?假设我们遇到这样一个问题:
数据的整体表现,会由因素A、B、C、D共同影响,并且A、B、C、D相互独立,这时候,我们能够借助公式来计算四个因素对于整体表现分别有多大的影响。这种量化的计算在提供ROI,计算考核奖金,或者展示分析报告的时候比较有帮助。
例如上面的场景,能够通过公式计算出东西南北四个地区销量的变动对于全国整体表现分别有多大的影响,抓住影响大盘的主要区域。
再例如,进行拉新分析的时候,也能够测算相对独立的应用商店、微信引流等渠道,各自对产品的增长产生了多大的影响,从而为不同引流渠道的工作人员提供合理的奖金。
对于普通型的指标和比例型的指标,会有不同的计算公式。
先看第一种,普通型的指标。
普通型指标包括我们常说的订单量,GMV,毛利,UV等等,不需要经过二次加工的基础指标。
对于这类指标,影响度的计算公式为:
例如,在计算东西南北四个地区销量变动的影响力度时,可以使用公式:
分别计算四个区域的影响度,得到下表:
东部地区的影响度为-59%。说明对于全国大盘而言,东部地区起到了负向的影响,影响的力度为59%。
西部地区的影响度为41%。说明西部地区对大盘的增长起到了正面的影响,虽然西部地区的环比增量有7%,高于东部地区环比变动的绝对值,但因为订单基数较小,因此影响力度只有41%。
同理,由于较大的订单基数以及不错的环比增量,南部地区对全国大盘起到了正向影响,影响度在四个区域中排名第一,高达76%。
尽管北部地区有20%的涨幅,但订单基数小,故影响度不大,只有42%。
再看第二种,比例型的指标。
比例型的指标由普通型指标做除法处理而来。包括CR(转化率=订单量/UV);毛利率(毛利率=毛利/GMV)等等。
对于这类指标,考虑到分子与分母都存在波动,因此在计算时不能简单的套用上述公式,需要进行变形:
以CR为例,假定:
this下标:本周指标值
last下标:上周指标值
total : 整体指标值
有n个独立因子影响到整体表现,分别编号1,2,……n,对于某一个因子i来说:
例如,在计算APP,小程序,web,h5四个渠道CR变动对整体CR的影响时,得到以下数据:
四个渠道的CR环比均上涨,对整体的影响皆为正向。
结合各个渠道的流量、CR以及环比变化值,最终计算结果中,APP的影响力度最大,高达41%,h5的影响力度最小,仅为6%。
如果说四个渠道由不同的团队负责,那么在划分奖金的时候,就可以凭借各团队奖金数额=奖金总额*影响度作为基准参考。
除此之外,还有一个叫做TGI的指数。虽然不能计算出各个因素对于整体的影响,但也有相似的应用场景。
TGI指数全称Target Group Index,可以反应我们研究的目标群体在研究范围内强弱势情况。
TGI指数= (目标群体中具有某一特征的群体所占比例/总体中具有相同特征的群体所占比例)*标准数100。
其实TGI很简单,如果觉得公式复杂,就不要看公式了,借用知乎案例举个栗子。
想计算在全国各个城市中,喜欢打游戏的人TGI指数,经过数据的调查与收集:
总体数据:全国喜欢打游戏的人占比40%;
北京数据:北京喜欢打游戏的人占比45%;
西宁数据:西宁喜欢打游戏的人占比35%;
……
借助公式计算:
北京TGI=(45%/40%)*100=112.5
青海TGI=(35%/40%)*100=87.5
当TGI高于100的时候,代表该地区的数据表现高于平均值。TGI越高,代表在公司的策略中,该地区的重要性程度越高。在商业分析的过程中,TGI也会有其他的名字,比如喜好度,用户偏好度,核心用户比等。
不管是采用哪一种计算方式,都是为了更好的量化不同因素对于大盘的影响。在呈现分析报告的时候,突出数据专业性;在业务制定策略的时候,摸清主次矛盾。