做数据分析如何从囚徒困境到合作的进化
▼
在进入正题之前,我先讲一下咱今天分享的核心思想,我在一个大数据公司创业,做了好几个产品,从统计分析平台,到广告监测平台,再到用收集到的数据为移动设备打标签,最后到用这些数据进行商业分析,帮助客户增收降本。在这十年的工作中,我发现一个非常重要,但是很困难的职业----数据(商业)分析师。
作为一个技术人员,我曾经以为数据分析师只要会写SQL,就可以做数据分析,但是随着工作年限的提高,我发现,做好数据分析的难度远高于我的想象。我从互联网上查找了一些关于“数据(商业)分析师技能要求”的文章,发现要想当好数据(商业)分析师,需要具备的能力可能远远超出技术人员的想象(如下图所示)
从这个图中,我觉得优秀的数据分析人员,简直就是个神的存在。从我常年在数据方面的工作而言,一个优秀的技术人员,可以很好的掌握这里面几项技术已经相当不错了。
那么,数据分析师如何成长成为这种神一样的存在呢?我认为,除了技术性因素外,还有一个组织问题:数据分析师在企业内承上启下,和多个部门、组织和个人打交道,在组织里起到组织核心的作用。从“社会学”角度观察,不同组织之间,容易出现“本位主义”,越大的组织,越容易陷入“囚徒困境”中。
所以,我今天想剖析一下“囚徒困境”和“纯粹理想情况下的解决方案”,并给数据分析师提供一点个人建议:数据(商业)分析师,应该以“帮企业更好、更快决策”为目标,寻求和下游(数据工程师团队)、左右(其他合作部门,例如销售、供应链团队等)、上游(老板)通力合作、保持有效沟通,减轻学习的负担,加快自身进化,最终成就了自己,也促进了企业发展。
—▼—
▼
接下来,以某全球零售餐饮连锁企业选址的方法论为例,来讲讲在这个通过数据分析选址的项目中,出现的“囚徒困境”是如何解决的?
某全球零售餐饮连锁企业,在中国市场开一家火一家,除了特有的餐饮文化和严格的复制标准,还有一项在连锁餐饮界引以为豪的竞争力——选址成功率,几乎百分之一百的选址成功率!肯德基经营成功的首要三大因素必然是选址、选址、选址。
“选址”对于连锁经营实体的重要性不言而喻,但同时也是长久以来所有实体连锁的痛点,而且对于目标客群和商业模式并不清晰的便利店/超市连锁而言,选址的难度更高。
传统的选址作业流程主要靠人工调研和实地考察,大量及长时间周期的人工作业,使得选址开发的流程过长,同时人工作业模式也存在太多的不可控性。
▼
漫长的门店开发流程,单纯依靠人工管控,对于进度的管理和追踪的难度极大。而与人口相关的各类数据,如目标门店区域的到访量、到访年龄比例等情况需靠长时间的人工现场采集,成本高,而且极易出现核心数据缺失的状况。
同时,手动作业处理数据不及时等因素导致信息滞后,结果缺乏相应的参考价值。下图是PIE指标体系和应用。
▼
▼
我们知道选址,在商圈数据调研的时候,会走访很多线下网点,还要采集很多线下环境数据,例如人口数据。我们可能可以从高德、百度获得这样的热力图,虽然看着非常焕丽。但是在精细的选址中却没有鸟用。
原因:在精细的选址中,业务方需要知道某个大楼、小区,甚至是小区的东门还是小区的西门人多。但是我们无法从这种图里获得具体的人口数字(或者指数)。
所以,数据不标准,现场调研的数据和地图数据无法绑定在一起。
场景:数据分析师发现地图上某个区域的流量特别大。他会找数据工程师进行排查:请帮忙查一下“某酒店”,流量为什么这么高?
数据工程师会反问:具体是哪个区域?能不能给我一个经纬度列表。
分析师可能没有工具获取经纬度列表,因此这个问题就耽误了,后续的分析会遇到意想不到的坑。
▼
不要小看这个Hash ID,它让该企业第一次有了把所有数据放置到一个标准度量体系中的方法。彻底解决了前台团队、后台数据团队、分析师团队、数据智能团队之间沟通的沟壑。
▼
在选址过程中,可能很多分析师都用过POI数据,如上图,客户提出了新的挑战。客户想估算出这个区域里人口的购买力指标,所以想用当前区域里房价来进行折算。但是,这个区域里,只有几个小区有房价数据,剩下的5、6个没有办法填充,造成这个指标一直参差不齐。
客户提出了新的挑战。客户想估算出这个区域里人口的购买力指标,所以想用当前区域里房价来进行折算。但是,这个区域里,只有几个小区有房价数据,剩下的5、6个没有办法填充,造成这个指标一直参差不齐。
所以,数据缺失多、数据精度比较差,无法对商圈进行标准的画像。
▼
大家需要客观接受一个现实,就是这个世界离广泛、真实、准确的数据化,还差的远。在这种条件下,要多个团队(有巨大差异化的同事),进行合作、探索、挖掘数据的价值,就要给出一个有效、标准的框架和解决方案。
这套数字化的方法,让每一个网格都可以有一套标准、通用的标签,可以想象,原来不同团队需要在显示器前,大家一起看地图解决的问题,可以进一步转换成计算机自动进行计算的问题。
▼
数据准备的差不多以后,想标准化评估一个区域,也是很难的,我们看上图,这种打分表,在选址团队中很常用,的确起到了一定作用。但是请注意,这个打分表是很主观的,而且无法精确量化。
所以,评估难,这种打分表,在选址团队中很常用,的确起到了一定作用。但是请注意,这个打分表是很主观的,而且无法精确量化。
选址工作,是该企业成功的一个金钥匙。但是,随着企业的发展想三四线城市发展,如何快速评估一块区域,越来越不能靠调研员各地探访了。客户急需一种标准化的方法,来进行评估度量。前线调研员需要和总部分析师一起,构建起一种沟通和评估的标准,这样,选址调研才能标准化、规模化。
▼
在选址评估上,客户也在转变,从原来的“线下调研员给一个门店,评估一个门店”,转换成“在城市所有网格里”智能搜索出潜在门店的模式。
我们进行门店选址模型探索。产出的模型,在上海市进行搜索,经过现实开店数据验证,在推荐的网点400米内,有80%的可能性有一家在运营的门店。解决进入同类型、同等级新城市冷启动问题。
公式:F(某网格开店成功概率) = 0.14*某网格购物中心个数1.24+0.101*某网格购物中心营业额0.88+0.08*某网格火车站流量1.2+……
▼
虽然选址是一个数据分析和智能的冷门方向,但是要做的工作也有很多。在数字化企业的构建过程中,数据分析师一个非常重要的角色。他需要把很多工作串接在一起,得到对企业有价值的结论。但是现实的条件是残酷的。我给大家的建议,是边沟通、边解决问题,而且要时刻注意能不能做到数据标准化、算法智能化、应用简单化。让企业的上下游同事都可以认可数据采集、加工、分析的方法,最终让大家在数字化的世界中解决业务决策问题。
个人认为如何高效推进工作的方法总结:
标准化的数据架构(网格)
标准化的内容架构(标签)
标准化的评价架构(算法)
—▼—
综上,我们了解的选址的案例,那到底什么是“囚徒困境”呢?
囚徒困境是博弈论的非零和博弈中具代表性的例子,反映个人最佳选择并非团体最佳选择。或者说在一个群体中,个人做出理性选择却往往导致集体的非理性。虽然困境本身只属模型性质,但现实中的价格竞争、环境保护等方面,也会频繁出现类似情况。
▼
美国著名的科学家罗伯特·阿克塞尔罗德在1970年代向棘手的“重复囚徒困境”难题发起了冲击,并最终取得了重大突破。在他的研究之前,我们发现古往今来的众多学者对于人类能否跳出“囚徒困境”的诅咒都充满了悲观的看法,可是一战西线堑壕战里“圣诞停火”这种奇迹的出现,又证明人类在没有权威的情况下,其实是具有自发形成合作关系的可能性的。
阿克塞尔罗德利用当时刚刚兴起的计算机技术,沿着“计算模拟”这条不同于归纳和演绎的新研究路径,举办了三场对后世影响深远的“重复囚徒困境博弈策略的计算机锦标赛”,几十个出自世界各地不同学科专家之手的博弈策略作为比赛选手,在既定规则下彼此展开了激烈的对决。这三场比赛的结果直接指向了合作产生的本质,“圣诞停火”的秘密就藏在这三场比赛的背后。
试验的过程挺让人吃惊的:不同对手,经过激烈对抗,每个选择不同策略的参与者一再重复了很长时间之后,从利己的角度来判断,最终“贪婪”策略趋向于减少,而比较“利他”策略更多地被采用。他用这个博弈来说明,通过自然选择,一种利他行为的机制可能从最初纯粹的自私机制进化而来。最佳确定性策略被认为是“以牙还牙”。
这里要解释一下:以牙还牙不是字面意义上的,呈现死循环的报复,而是,有一定概率以德报德,以德报怨,但是,如果对手持续作恶,那么可以被激发的愤怒,也有一定概率相应的报复。这个试验说明了一个深刻的道理:以善意对待对手,推进整体合作的进化,是可以让大家走出囚徒困境的。
I.友善
最重要的条件是策略必须“友善”,这就是说,不要在对手背叛之前先背叛。在现实中,可以解释为:要尽可能善意的对待别人,不要抱怨、更不要给别人造成麻烦。
II.报复
但是,成功的策略必须不是一个盲目乐观者。要保持报复的可能,始终合作肯定不会获得最后的好结果(因为“下流”策略将残酷地剥削这样的傻瓜)。在现实中,一味的对邪恶妥协,只会造成彻底的囚徒困境和崩溃。
III.宽恕
成功策略的另一个品质是必须要宽恕。虽然它们不报复,但是如果对手不继续背叛,它们会一再退却到合作。这停止了报复和反报复的长期进行,最大化了得分点数。在现实中,我们要容忍别人的偶然的错误,给与一定的宽恕是挽救合作的必然条件。
IV.不嫉妒
最后一个品质是不嫉妒,就是说不去争取得到高于对手的分数(“友善”的策略必然不嫉妒,也就是说“友善”的策略永远无法得到高于对手的分数)。
—▼—
正如背景部分描述的,数据工作领域里,数据分析师处于核心地位,在不同组织的协作中,容易出现“囚徒困境”。
数据质量是数据分析、数据科学、甚至是AI的基础,为什么提高不了数据质量?假设先排除搜集端的问题,后续数据清洗是一个非常重要的工作。普遍情况是,工程师不懂业务、分析师普遍不懂技术,两个团队又容易陷入到第二个陷阱中。
几天后,分析师和工程师团队,总算把例行任务上线了,发现数据库性能上不去,工程师提出方案改成Spark执行,但是分析师不会Spark,又要排期。
—▼—
上面只是罗列了一些“囚徒困境”的实际场景,两个团队之间,在需求沟通、数据质量控制、最终数据加工方案上,很容易遇到各种各样的问题。本质上这些问题就是:技术不懂业务、业务不懂技术,鸡同鸭讲,能讲通吗?那么我们如何走出来呢?
回到现实条件下,客观的看待阿克塞尔罗德的试验,虽然他指出了走出囚徒困境的解法,但是,这个试验的条件相对简单,而且试验的次数可以是几千几万次,而对于现实工作,我们如何在有限条件下走出囚徒困境,是需要各找各的办法的;另外,也要依托一些先进的产品,想办法降低摩擦,找到双方友善、宽容的合作方案,不陷入囚徒困境。
▼
文档,在传播需求,达成共识的过程中,起到非常重要的因素。在数据产品中,文档是一个不太起眼,但是非常重要的环节。它应该有这样的功能:
1.在文档中可以直接嵌入数据,包括数据的链接、字段,可以让读者快速读取数据、字段定义等,当然,最好还能包含数据的作者、业务含义等描述。可以尽量降低沟通的磨蹭。
2.文档需要有版本管理,可以进行对比。数据工作是一项繁琐、严肃的工作,文档随意更改、变更、丢失,对于构建一个完整的数据系统是致命的。
▼
之前在一些群里,看到数据分析师讨论学习哪些技术,比如Spark、SPSS、SAS,我个人觉得这些技术工具值得学,但是更重要的是要从业务的角度入手。
1.数据(商业)分析师的职责,不是和数据工程师抢饭碗,而是帮助老板、企业研究数据,基于数据做决策,因此,更要以业务的视角去理解、使用数据。
2.工程师们,如果只想从事技术工作,需要更好的做好技术性的支撑,例如确保数据系统可靠性、易用性,做好不同系统之间的整合工作。要及时、有效的从搬数据、抽取数据中解放出来。
▼
随着技术的发展,基础的数据平台会越来越多,数据分析师不太可能全部学会,更不要说精通。那么,一个业务逻辑,数据(业务)分析师如何让技术团队看懂、翻译自己的工作,就非常有讲究了。但是非要让别人看懂、翻译吗?我们数据分析师团队,能不能直接操作大数据平台呢?
1. 数据加工本身可以被抽象成语义,经过不同的编译过程,理论上就可以翻译成SQL语句、Spark程序等等。数据分析师对数据的整理、建模,尽可能不用工程师帮忙,这样可以尽可能的降低重复劳动、减少工作的误差、浪费。
2. 数据工程师,可以腾出时间去处理数据平台的其他工作,做好不同组件的整合,做好数据加工的性能优化。
(欢迎大家加入数据工匠知识星球获取更多资讯。)
扫描二维码关注我们
我们的使命:发展数据治理行业、普及数据治理知识、改变企业数据管理现状、提高企业数据质量、推动企业走进大数据时代。
我们的愿景:打造数据治理专家、数据治理平台、数据治理生态圈。
我们的价值观:凝聚行业力量、打造数据治理全链条平台、改变数据治理生态圈。
了解更多精彩内容
长按,识别二维码,关注我们吧!
数据工匠俱乐部
微信号:zgsjgjjlb
专注数据治理,推动大数据发展。