数据分析几大常见效应和定律。
共 2493字,需浏览 5分钟
·
2021-11-18 23:46
在讨论数据和业务的过程中,如果对方时不时蹦出个这效应,那定律,自己没有了解的话会感觉一脸懵,其实这些概念也没有什么神秘的,今天整理了一下咱们数分领域常见的效应和规律,希望可以帮大家。
马太效应出自圣经《新约·马太福音》里有一则寓言:“凡有的,还要加倍给他叫他多余;没有的,连他所有的也要夺过来”。中国也有类似的古语,看过83版射雕英雄传的同学应该对九阴真经里面 “天之道,损有余而补不足” 这句话印象深了,这句话出自老子的《道德经》,完整的古语为“天之道,损有余而补不足;人之道则不然,损不足以奉有余”,意思是:自然的法则,是损减有余来补充不足。人类社会世俗的作法却不然,而是损减贫穷不足来供奉富贵有余。这两句古语比较直观地表述了马太效应,通俗地解释为 “强的越强,弱的越弱”。
马太效应在业务中非常常见。比如在推荐算法中,被判定为质量较好的用户所得到的资源就越多,这种情况也会形成反馈,得到的资源越多越会被判定为质量较好的用户,从而加剧这种效应(类似于短视频点赞越多曝光越多,曝光越多点赞越多)。
有些同学小时候可能做过这样的事情,把一根软管子一头插入水槽里面,用嘴把水吸出来,然后把软管子的另一头放地比水槽里水面低,那么水就能源源不断地流出来,其中的道理就是虹吸效应:液态分子间存在引力与位能差能,使液体会由压力大的一边流向压力小的一边。在业务中的虹吸效应指的是,某一主体将资源吸引过去,从而使得自身相比其他主体更加有吸引力,并导致其他主体营养不良的现象。
这与马太效应有相似之处但是并不相同,如果说马太效应通俗理解为“强者越强,弱者越弱”,那么虹吸效应的通俗解释为“大树地下不长草”。强者越强不一定是以牺牲弱者为代价,而虹吸就像一块干海绵,把周边的资源吸干,导致周边没有资源可用甚至寸草不生。
比如,在劳动力市场,每年985,211毕业的本科研究生数量是有限的,大公司用诱人的薪资待遇吸引人才,导致这部分人才大部分流向大公司,小公司则相对较难招聘到这部分毕业生,这也是一种虹吸现象。
再比如,在渠道投放时,假如渠道投放的总体预算是固定的,假如增加某一厂商渠道A的费用使此渠道的ECPM值(可以理解为厂商对品牌方的一种评价指标,ECPM值越高在投放中将获得更好的资源)上涨,进而导致渠道A的成本下降,渠道投放人员就有可能把其他渠道的预算转移到A,久而久之A渠道的预算占比会越来越高,其他渠道预算占比越来越低,长尾的小渠道可能会停止投放。
幸存者偏差讲的目光聚焦于“幸存下来”的群体具备的某些特征,但是忽略了“未幸存下来”的群体是否也是具备相同的特征。这里“幸存”的概念,其实更合理的说法应该是“筛选”。
在二战中统计学家沃德教授曾收到美国军方邀请,为降低飞机被击落的概率提出建议。经过观察发现机翼是被击中最多的地方,而机尾被击中概率比较小。当时军方的指挥官认为应该加强机翼的防御,但是沃德教授的结论是要加强机尾的防御。原因在于样本仅统计了返航的飞机,机翼被集中多次依然能够返航说明机翼并非是致命的地方。机尾被打中的飞机,会导致引擎受损而无法返航。
辛普森悖论指的是,当对比AB两个群体的数据,并将数据拆分成多个维度时,A组在各个维度下的表现均好于B,整体A组的表现却并不一定好于B。
举一个栗子,对比AB两个竞品的留存,将留存拆分成新用户和老用户两部分,竞品A新老用户的留存均高于竞品B,但是竞品A的整体留存却低于竞品B。
出现这种情况的原因在于两点,第一是两个竞品新老用户的占比不一致;第二是竞品A老用户的留存高于竞品B新用户的留存(也可以是竞品A新用户的留存高于竞品B老用户的留存,在此以其中一种情况进行说明)。如果竞品A老用户占比高于竞品B,那么竞品B在老用户留存累计的优势就有可能抹平竞品B新用户留存积累的劣势,使得整体留存高于A。
通俗地讲,就好比两个拳击手X,Y对打,Y在各个方面都比X有优势,如果X采取以牙还牙的策略定是赢不了Y,所以X需要集中优势力量攻打Y的软肋,虽然X自己也会收到攻击,但是如果X对Y造成的伤害远远高于自己可以承受的伤害,就有可能先把Y撂倒。那“农村包围城市,武装夺取政权” 是否也是有类似的思想呢?
本福特定律,是说一堆从实际生活得出的数据中,以1为首位数字的数的出现机率约为总数的三成(30.1%),这个定律至今没有经过一个严格的证明,他就像是大自然赋予我们的一个监控指标,当一组数据不符合本福特定律时,就有理由怀疑数据是否造假。所以此定律经常用在检测上市公司财报是否造假以及选举中是否有舞弊现象。
这个名字大家可能并不熟悉,但是一定听过二八定律,管理学家帕累托通过研究大量事实发现:社会上20%的人占有80%的社会财富。后来经过丰富与发展这个定律表述为,在任何一组东西中,最重要的只占其中一小部分,约20%,其余80%尽管是多数,却是次要的。
比如活跃用户中仅有20%的付费用户,付费用户中20%的用户贡献了80%的收入等等。当然20%与80%只是一个统计数据,其实质讲的是 “在因和果、努力和收获之间,普遍存在着不平衡关系” , 即不平衡关系存在的确定性和可预测性。
二八定律告诉我们把精放在更本质的事情上,不经规划地做事情很有可能会浪费80%的精力去产出20%的东西。有些同学在做分析的时候,可能有这种感受,跑了n个sheet的数据,结果写报告的时候,只用了四五个数据。所以在分析的习惯是先思考产生问题的原因,并对每个可能的原因赋予权重,然后以最简单快捷地方式来验证各个原因,快速排除错误方向,而不是在每个原因上都做详细的解释。