漫谈数据驱动-技术圈

这个数据的时代：漫谈数据驱动

“本文从非常宏观的视角来阐述数据价值。”

|0x00 数据驱动的本质

什么是数据？在大多数人的看法中，只有“数字”才能称之为“数据”，或者是必须由数字来组成的东西，其实不然。数据的概念要比数字大的多，例如在互联网上，不论是我们看过的新闻（文本）、朋友圈的动态（图片）还是正在追的电视剧（视频），这些都是数据。更加广义一些，医院中的诊疗档案、建筑工人使用的图纸，这些也都称之为数据。

讲到数据，又不能不提到“信息”。刚才提到的那些内容，本质上也是信息，所以“数据” = “信息”。但其实数据和信息还是存在一定不同的地方，数据记录了事物的客观属性，需要经过加工处理或者解读之后，才能成为信息。因此可以这么讲，在于虽然数据承载了信息，但并非所有的数据都承载了有意义的信息。

很多时候，我们无法直接解读数据，因为原始的数据是没有意义的，但我们可以通过一些数学模型，将数据进行量化，从而间接的获得信息。在互联网行业中，大多数的数据模型都离不开概率和统计学的知识，因此不论是基础面试、还是算法/分析岗位，对于数据能力的要求都非常高，本质就是因为数学才是数据从业者的根本竞争力。

那么为什么现在的行业发展，因为数据而变得不同了呢？最大的原因，在于“大数据”的出现，通过海量的、过去所无法想象的数据量，让计算机具备了一些人类的能力，让过去只能通过经验主观判断的东西，变得客观了起来。

“让计算机具备人类的能力”，具体而言，指的就是“数学模型”。

过去的数学模型主要是指统计学的方法，典型的例子就是美国大选的民调问题。但统计学的结论要准确，离不开两个核心的因素：一个是数据量要足够的多，一个是样本要足够的有代表性。数据量足够多好理解，而有代表性很多人就不是那么理解了，如果看看1936年盖洛普预测罗斯福获胜的例子，你就会明白“代表性”的重要了。

今天我们都在讲数据埋点，你设计的方案，真的有代表性吗？

但仅仅依靠统计学，只能解决简单的问题，而无法解决一些相对复杂的问题。引申一下，就是依靠统计学做的报表系统，只能解决基础的业务问题，而无法解决诸如供需匹配的复杂问题。

这个时候，数据模型就登场了，大多数的复杂业务应用，是通过数据来建立一个数学模型，来解决复杂问题。但数据模型同样存在两个核心因素：采用什么样的模型，以及模型的参数是多少？

真实的情况中，模型的选择是一件很困难的事情，因为简单的模型不一定会与现实情况匹配，而复杂的模型往往需要耗费非常长的时间来寻找。过去不论是在理论上还是工程上，大家都寄希望于找到一个比较完美的模型，然后通过调整参数来让模型的结果与之前统计到的结果相匹配起来，这其实就是“机器学习”要做的事情。

但不是所有的业务都能找到完美的模型，所以有些人就考虑通过把一些简单的模型组合在一起，达到完美模型的同样效果，而如果数据量足够，这种方法是可行的，这就是“数据驱动”。

数据驱动的前提就是存在大量的数据，而不是有预设的模型，然后通过组合简单模型的方式来达到与真实模型同样的效果。尽管这种方法在数据量不够的时候，与真实模型会存在偏差，但如果这个偏差是在误差允许的范围内，那么结果上看就是与真实模型等效的。有兴趣的可以学习一下切比雪夫定理，这么做是有一定数学根据的。

当然，数据驱动想要成功，除了数据量之外，还需要数据具有足够的代表性，在大数据技术出现之前，这是很难的，但随着实时、反作弊等技术的不断进步，清洗出一批有代表性的数据，还是可以做到的。

所以，我们对大数据、或者说数据驱动的认识，不应该只停留在统计报表上，或者停留在提供辅助决策上，而应该看到它和摩尔定律、数学模型一起，催生了机器智能的发展，而机器一旦产生了和人类类似的智能，就将对人类社会产生重大的影响，这才应该是我们的职业追求。

接下来，我们讲一下，大数据与信息论的关系。

|0x01 从信息论看大数据

大数据是为了解决什么问题？从根本上讲，是为了解决世界的不确定性问题。量子力学从物理上解释了客观世界的不确定性，为什么大数学站到了历史的巅峰之上，就是因为大数据能够解决这些不确定性问题，从而实现我们心中所设想的“智能时代”。

从这个角度上，我们就能够理解大数据的4V特征：Volume（大量）、Variety（多样）、Velocity（高速）、Value（价值），为什么这么重要了。

首先谈大数据的“量”。数据量大的重要性，体现在两个方面，一个是前文提到的，用足够的量来消除信息的不确定性；第二个是，即便数据是有代表性的，但因为数据本身的随机性，会导致噪声情况的存在，只有足够多的数据才能将结果的置信度提上去。因此当某个领域的数据量迅速积攒起来之后，某个领域的研究进展就可以很快的提升起来，成果也就更容易看得到。像自然语言识别、人脸识别、基因检测等领域，无不是数据量决定了研究的速度。

其次谈大数据的“多样”。多样的重要性也体现在两个方面，一个是越来越多的非结构化数据，随着技术的进步，变得结构化起来。早期的结构化数据通常是指文本类数据，如电子邮件、文档等，随着互联网和物联网的发展，又扩展到音频、图片、视频等结构，通过更多样化的方式来描述客观的世界。另一个是大数据通常是多维度的，能够对计算的结果进行“交叉验证”，这可能是数据科学家在进行统计分析时最重要的技术之一。可以说，大数据“多样”的重要性，是有信息论做理论基础的。

再谈大数据的“高速”。高速的意义，在于过去因为计算量太大，导致的不能实现的、或者是只能依赖超算实现的东西，变得更加普及和常见了。比如通过无数数据喂出来的“谷歌大脑”，或者是PageRank算法算出来的更加准确的搜索结果，使得计算瓶颈不再成为限制模型的主要因素。高速的另一个意义是数据的时效性越来越强，各种实时技术的出现使得我们获取信息、做出实时决断的能力大大提升了。

最后谈一下大数据的“价值”。从信息论的角度来看，有一个很重要的概念，叫作：“交叉熵”，这个概念并非由香农提出，而是由库尔贝克等人提出。它可以反映两个信息源之间的一致性，或者两种概率模型之间的一致性。当两个数据源完全一致时，它们的交叉熵等于零；当它们相差很大时，交叉熵也很大。所有采用数据驱动的方法，建立模型所使用的数据和使用模型的数据之间需要有一致性，也就是盖洛普所讲的代表性，否则这种方法就会失效，而交叉熵就是对这种代表性或者一致性的一种精确的量化度量。在过去，使用任何基于概率统计的模型都会有很多小概率事件覆盖不到，这在过去被认为是数据驱动方法的死穴。这些漏网的情况反映到交叉熵时，它的值就会达到无穷大，也就是说数据驱动方法在这个时候就失效了。而在大数据时代，在某个领域里获得数据的完备性还是可能的，就相当于训练模型的数据集合和使用这个模型的测试集合，是同一个集合或者是高度重复的，这样，它们的交叉熵近乎零。这种情况就不会出现覆盖不了很多小概率事件的灾难，这样的数据驱动方法才具有普遍性，而不再是时灵时不灵的方法论。

由此可见，大数据通过信息论作为基础理论，利用信息消除不确定性，因此从更高的维度对一些传统产业产生了降维打击。虽然人类使用信息由来已久，但是到了大数据时代，量变带来质变，以至于人们忽然发现，采用信息论的思维方式可以让过去很多难题迎刃而解。

接下来我们再讲一下互联网公司的数据生意。

|0x02 互联网公司的数据生意

我们经常讲，一个商业模型，成熟与否的标志之一，就是赚不赚钱。就像人工智能长期没有商业应用，因此一直是被批评的、不成熟的产业。

如果我们看互联网企业用数据赚钱的历史，就是一个“由轻到重、由浅到深”的过程：过去是通过在线化来获取流量，再用流量取得经济规模的红利；现在是使用数据来深耕一些行业，挖掘更深的价值点。

网上比较公认的意见，是可以将中国互联网的发展分成四个阶段：门户网站时代、BAT时代、移动互联网时代和IOT时代。

门户网站时代的代表是新浪、搜狐、网易，有点“御三家”的感觉。这个时候使用数据的方式比较简单，就是把网站的流量卖给品牌广告。

BAT时代的代表是百度、阿里巴巴和腾讯，分别从人和信息、人和商品、人和人的角度，将人与数据连接了起来。这个阶段使用数据的方式就高级了很多，通过检索全网的内容，利用数据挖掘人的行为意图，再将合适的广告推荐给合适的人。百度是竞价排名、阿里是电商广告，二者的本质是把流量卖给第三方。但腾讯更进一步，做了中国科技互联网领域里的第一次突破，也就是用自己的流量去分销自己的虚拟产品，比如游戏。

移动互联网时代的代表就是头条系、快手这一类的公司了。随着信息分发效率的提升，更多的人被低成本的链接到了互联网的世界，大爷大妈第一次加入了其中，新的流量产生了，新的机会也就到来了。

但这个时代还有一些其他的代表，几家“重资产”的互联网公司兴起了。美团拥有50多万骑手，小米更是自己开始造手机，广义上，蔚来和大疆这一类的公司，也可以囊括进来。与过去轻资产的公司不同的是，这一类的公司获取流量、使用数据的方式更重了，因为数据直接与线下的物产生了关联。同时，这些公司依靠产品带来的连接和流量，以及它对用户数据的深层理解，有机会创造更大价值。

IOT时代，目前更看好华为一些，鸿蒙大有可为。

整个中国互联网发展的主旋律，就是一个流量获取由轻到重、价值变现由浅到深的过程。目的都是通过建立连接获取流量，再去取得经济收益，这个就是中国流量型公司的方法论。

对行业的投入越来越重，对数据的理解越来越深，数据改造商业的潜力，也就越来越大。

|0xFF 数据信仰

很多大佬开始强调“数据信仰”，不仅因为欧洲的GDPR法规开启了数据个人资产时代，也是因为流量越来越重、算法越来越专业、数据越来越实时的今天，单纯的极致思维已经不能满足用户了，而需要像互联网刚诞生那样，带来体验的成倍增长，从整个流程上彻底满足用户，并突破临界点，才能实现突破。可以这么说，体系的变化，才是用户下定决心的根本理由；对数据有信仰，才可能打开新的创新之路。

反映到具体的公司业务上，就是现代市场越来越弱化职能，强调发现机会、解决问题的能力。当工具越来越完善的时候，要么向上走，打业务；要么向下走，拼技术；而过去吃到了技术红利的技术中产阶级，则会逐步消失。

我们现在越来越强调“企业数字化转型”，为什么企业会存在数字化的问题？用大佬的话讲：能把企业的信息拉通起来看，其实就已经很不容易了。因此企业数字化的本质，还是把企业自己的一些要素变成数据，然后通过一些成熟的模型来解读这些数据，从而“部分”避免过去经验主义带来的弊病，让企业的决策更加理性一些。

之前有人提出过疑问，就是天天做开发，哪有时间做创新，晋升为什么一定要看重创新。大佬的回复也很简练：你的努力反映在绩效上，但晋升必须要有所创新。回到数据信仰上，这种创新就是找到使用数据，解决问题或带动增长的方法，并且要有一定的壁垒，防止别人抢了，也需要有拉通的能力。所以，运气很重要，但碰到运气后实现的能力也很重要。这就像pubg这款游戏，枪法重要、运营重要，但圈运、对手行动的时机，也很重要。

后话：

本文是读书笔记整理而成的，从数据驱动是什么，一直讲到互联网公司的生意经，再讲到一些职场问题。其实前后的逻辑性未必有多强，但整理这些信息的过程，对自己的启发还是挺大的，至少PPT的素材有了。很多时候，技术是我们数据人的硬技能，但平时多读书，学一些天下大势、哲学尽头一类的软技能，用来给自己的谈吐言行做一些修饰，也是很重要的。毕竟工作十年、二十年之后，你过去熬了多少夜恐怕不会有人关心，但你能讲出什么道理，却是别人对你敬重有加的关键。