统计学新手必知必会：1文带你走进数据分析！（上）-技术圈

Mykite | 作者

人人都是产品经理 | 来源

http://www.woshipm.com/data-analysis/917862.html

我们知道，在整个产品经理的职业生涯中，如果你不想永远是一个只画画原型，写写文档的职场菜鸟，就一定需要掌握数据分析的概念和方法，你需要知道在管理产品的不同阶段需要使用哪些数据分析的方法来论证你的判断是否正确？用户是否能够接受？能够为企业带来哪些收益？

本文将从结合实际工作的案例来介绍在日常工作中的哪些数据分析方法、概念应该在什么时候使用，通过直白的语言来带领大家走入数据分析领域。

什么是统计学？

统计学是通过搜索、整理、分析、描述数据等手段，以达到推断所测对象的本质，甚至预测对象未来的一门综合性科学。统计学用到了大量的数学及其它学科的专业知识，其应用范围几乎覆盖了社会科学和自然科学的各个领域。

统计学的意义

作为大数据时代炙手可热的学问，统计学可以解决很多实际问题。只有了解了统计学你才能知道在大数据意义下生存的游戏法则。一般意义上的统计学包括了：概率学、数理统计学两个部分，它们都是以概率论为基础。

统计学核心定律及概念

通过分析数据推断事物的本质，预测它未来的发展，分析数据的第一步就是找出那些看似偶然的发生的事件，背后隐藏着哪些必然性的统计规律。

核心内容：

第1节：大数定律
第2节：中心极限定理
第3节：随机抽样
第4节：回归分析
第5节：常犯的概率学错误

今天先为大家讲解前3节，后两节的内容明天继续为大家分享。

大数定律

1.什么是大数定律？

比如说，我们在学生时代经常会有一些单元测验的考试，对你来说每次考试的分数肯定是会上下浮动的，可能有几次的分数比较高，有几次的分数比较低，但经过了很多次测验以后这些分数应该能够反映你的真实能力了，这就是大数定律定律的主要内涵。

用数学术语来表达就是：当实验次数足够多的时候，实验结果的平均值会无限接近一个数值，这个数值一般叫做“期望值”。

它的意义在于我们可以通过研究概率来看清风险，做出决定，尤其是在理财和投资的时候体现的特别明显。

比如：常常有人幻想一夜暴富，最有可能的方法就是买彩票或则进赌场。博彩行业就是依靠概率理论来发财的，让大家觉得自己会是那个幸运儿。如果按照每期奖金的数额除以彩票的发行量，每张彩票的实际价值都不到1分钱。

但是，人们都热衷于用2元钱来交换1分钱。就算是某期彩票爆出的大奖掏空了奖池，那从长远来看的话，发行彩票业是稳赚不赔的。

因为什么呢？根据大数定律，对于长期发行销量稳定的彩票，奖金总额的期望值是恒定的，发行机构只要保证发行彩票的销售额大于彩金期望值，就肯定能够赚钱。

赌场也是一样的，只要能够吸引到足够数量的赌客，不管幸运儿赢走多少钱，赌场永远是最后的赢家。所以，一夜暴富的事情发生在我们身上的概率微乎其微，沉溺其中的结果就是让赌场老板和彩票发行机构大赚了一笔。

在我们生活中也有很多相似的案例，例如积分抽奖，我们每天都使用饿了么来订外卖，每笔订单完成评价后都会奖励一定的积分，这些积分可以在饿了么商城兑换商品和抽奖。

但是我们发现积分可直接兑换的商品价值都是很低的，要么就是需要加钱购买的，总体来看性价比不高。而参与抽奖的商品可能都是价值较高的数码产品，我们当然愿意使用积分去抽取这些价值较高的奖品，虽然我们也知道中奖的几率很低。当然积分抽奖的最终目的在于快速的消耗用户账户中沉淀的积分而不是赚钱。

2.通过研究概率，明智的选择理财方式

对于一些期望值比较高的投资，我们也要用到大数定律。比如一个投资门槛是100万的项目，成功率只有30%，但是预期回报达到了500%，这么诱人该不该投呢？这个时候如果你把注意力都放在了高回报率上就比较危险。我们要注意大数定律成立的前提在于实验次数足够多。投资100万可不是买2元钱的彩票。

如果你是个工薪阶层，你用来投资的100万是你的全部家当，那你显然没有多次投资的资本。这个时候如果你孤注一掷，那么你会有70%概率会血本无归。反过来，如果你是投资机构或者富二代，那这样的项目肯定是来的越多越好。因为你投资的几百个项目里面，肯定有一些能够成功。

平均来看的话一定能够像开赌场一样赚到大钱，所以面对理财投资中的高期望，我们首先应该考虑的因素就是：风险倾向。

根据大数定律你的风险承受能力越强，就意味着允许实验的次数越多，也就越有可能赚到期望的投资回报。这样大家就很容易理解两个基本概念。

风险投资机构每年投资那么多项目的意义在哪里
为什么有钱的人赚钱比穷人更容易

3.帮助我们理性面对风险

生活中最常见的，依靠大数定律来赚钱的其实是保险行业。比如你在网上购买某个电子产品的时候，网站经常会向我们推销延长保修的服务。

比如：一台2000元的洗衣机，多花100块钱可以延保一年，如果你掌握了大数定律就很容易想到。厂家对这台洗衣机维修服务的预期成本肯定少于100元，否则厂家就要赔钱了。

但是有些时候，这种钱还必须得花。大家都知道，保险公司利润很高，假设一种人身意外险的赔偿额度是100万，发生意外的概率是百万分之一，那么预期损失就是1元钱。如果你花10元钱来买，保险公司就能赚到10倍的利润，基本和开赌场没什么区别。

但是你要知道，买这类保险的意义并不是为了省钱，而是当你遭受一些难以承受的巨大损失时，帮你渡过难关。因为人身意外的损失是不能和2000元的洗衣机来比较的。这个时候保险更多的是一种规避风险的理性工具。

中心极限定理

1.什么是中心极限定理？

中心极限定理（central limit theorem）是概率论中讨论随机变量序列部分和分布渐近于正态分布的一类定理。这组定理是数理统计学和误差分析的理论基础，指出了大量随机变量累积分布函数逐点收敛到正态分布的积累分布函数的条件。

光从百科的字面上我们可能很难理解这个定理到底是个什么东东？其实，只要我们把它转化成生活中的常常发生的事情就非常好理解了。

比如：我们去农场的一棵树上摘苹果，想知道这棵树上的苹果甜不甜？没必要把整棵树上所有的苹果都尝一遍，在一棵树上任意一个苹果的甜度绝不会相差太大，只要从中选取几个品尝就能够知道这批水果到底甜不甜。

那中心极限定理的含义就是：任意一个群体样本的平均值都会围绕在这个群体的整体平均值周围，我们对一个基数庞大的群体做统计调查的时候，只要对其中的一部分样本进行研究，得出的结论就能够反映出整个群体的特点。而且抽样的数量越大准确率越高。因为这个定理的存在我们开展调查统计就变得简单方便了。

通过上面的例子我们可以得出本节的第1个重点：

如果掌握了某个群体的具体信息，就能够推理出从这个群体中正确抽取的随机样本的情况。

例如：某个城市正在同时举行铁人三项比赛和相扑比赛，比赛前有一辆载满外国铁人三项运动员的大巴车失踪了，结果警察找到了一辆满是外国大胖子的大巴车。由于语言不通，警察只能根据经验来判断。即使铁人三项选手里面可能也有几个体重较大的，但是满车都是大胖子这是不太可能的，所以呢利用中心极限定理不难推断出来，警察很可能找错了车子。当然，这也属于比较极端的情况。

如果换个场景条件，找到的两辆车中乘客有胖有瘦，我们该怎么判断呢？这个时候我们对乘客的体重进行测量，计算体重分布的标准差，利用中心极限定理我们仍然能够判断出哪辆车是我们要找的。

这是因为铁人三项运动员群体的体重标准差是明显小于普通群体的。他们的体重分布更集中，这也是中心极限定理的另一种应用。那就是本节的第2个重点：

如果已知两个样本的基本特性，就能够推理出这两个样本是不是来自同一个群体。

小结：关于中心极限定理，大家就可以这样理解了。虽然它的数学计算很复杂，但理解起来并不是那么难。我们理解了大数定律和中心极限定理就掌握了统计学的概率论基础。那接下来就可以了解一下，一些开展调查统计的基本方法，比如如何采集数据？

随机抽样

通过前两节的内容我们对大数定律和中心极限定理已经有了一定了解，本节主要讲讲开展调查统计的基本方法也就是本章的第三个重点“随机抽样”。

1.什么是随机抽样？

按照随机的原则，即保证总体中每一个对象都有已知的、非零的概率被选入作为研究的对象，保证样本的代表性。随机抽样法就是调查对象总体中每个部分都有同等被抽中的可能，是一种完全依照机会均等的原则进行的抽样调查，被称为是一种“等概率”。

随机抽样有四种基本形式，即简单随机抽样、等距抽样、类型抽样和整群抽样。它的最大优点是在根据样本资料推论总体时，可用概率的方式客观地测量推论值的可靠程度，从而使这种推论建立在科学的基础上。正因为此，随机抽样在社会调查和社会研究中应用较广泛。常用的随机抽样方法主要有纯随机抽样、分层抽样、系统抽样、整群抽样、多阶段抽样等。

随机抽样是我们在工作中收集数据的主要方法，比如开展问卷调查的时候，如果客户数量庞大，根据中心极限定理只要在客户中抽取部分有代表性的样本来填写问卷，就能够达到目的。这个选取有代表性样本的过程，我们称之为“随机抽样”。

所以呢，随机取样只是看似简单，它的关键点在于“随机”这两个字。要做到随机，必须保证每个对象被抽到的概率完全相等。这样抽样的样本才代表了整个对象群体。比如说我们想知道100个弹珠中有多少绿色弹珠多少黄色弹珠，只要把它们放进一个盒子里然后随机取出30个就能得到基本准确的颜色比例。

那么问题来了？我们开展调查时的对象大多是我们的用户，我们所关心的人口组成，远远要比一盒子弹珠要复杂。如果不能保证相关人口中的每个人被选为样本的概率都相同，这样的抽样结果就存在偏见，这样有偏见的样本往往会得出荒谬的结论。

2.选择性偏见

具体的我们可以把偏见分成几类，最常见的叫做“选择性偏见”。

1936年美国总统大选前，文学文摘杂志曾经向1000万名订阅它的美国公民发放问卷，开展候选人民意调查。这份1000万人的样本已经非常大了，因为当时的美国的总人口只有不到1亿3千万。调查结果预测共和党人兰登将以显著的优势当选，然而当大选结果揭晓后民主党人罗斯福却以压倒性的优势当选了美国总统。

文学文摘的这次民意调查可以说相当失败，问题就处在编辑们没有意识到，订阅这本杂志的人平均来说要比普通美国民众更富有，他们更倾向于投票给保护富人利益的共和党。这样带有选择性偏见的样本即使容量再大也不能反映出全体美国人的民意。

3.幸存者偏见

还有一类“幸存者偏见”也很常见。当样本中有数据缺失导致组成发生改变，这种偏见就会出现。

例子：很多基金公司经常利用这种偏见来操纵数据吸引投资，基金公司会拿基金业绩和股票市场的基准来做比较。比如美国的标准“普尔指数”（类似于我国的上证指数），如果某一年基金的涨幅高于标准普尔指数或者是跌幅低于普尔指数，基金公司就会宣称我们的基金跑赢了普尔指数。但是要想实实在在的跑赢普尔指数不是一件容易的事，我们从概率学的角度假设，某支基金有1/2的概率能够跑赢标准普尔指数，那么连续2年跑赢的基金就只剩下1/4，连续3年跑赢的概率就只有1/8了。

猜猜看，公司会怎么宣传自己的基金业绩呢？他们通常的做法就是同时开放20支新基金，经过3年的经营总会有2-3支基金连续3年跑赢标准普尔指数，那公司只要把十几支失败的基金悄悄关闭，大肆宣传这2-3支幸存者就可以把投资者的钱骗进来了。

而实际上这些所谓幸存基金的产生就像连续抛3次硬币正面都朝上一样，接下来的表现会逐渐回归平均水平，真正能长期跑赢普尔指数的优秀基金其实是凤毛麟角。

4.健康用户偏见

此外“健康用户”偏见也指的我们警惕。

假设：卫生部门发布了一个理论，给孩子穿上紫色睡衣会有助于孩子大脑的发育。那么20年后我们通过抽样调查来验证这个理论，结果显示在哈弗大学的学生中有98%的人在少年时期是穿着紫色睡衣入睡的，而监狱里的犯人只有3%的人在少年时穿过紫色睡衣，所以我们得出结论：穿紫色睡衣的孩子确实更有可能取得成功。

这很显然是很荒谬的结论，那问题出在哪呢？

其实我们用来对比的两组人并不是通过随机抽样得到的，哈弗大学的学生和监狱里的犯人根本就是两类人，真正对孩子大脑发育有作用的是给孩子穿上紫色睡衣的家长相比于其他家庭显然更注重对孩子的家庭教育。

有些养生栏目页经常用类似的调查数据来证明多吃蔬菜水果的人更加长寿等等，他们忽略了习惯吃蔬菜水果的人群往往有健康的生活习惯，而那些喜欢高热量食物的人群很可能收入偏低，在生活的其它方面也没有健康的习惯，所以，这样错误的抽样得出的结论是经不起严格考证的。

小结：随机抽样是我们开展调查统计的第一步，我们要通过正确抽样来保证第一手的数据是可靠的、没有偏见的，在这个基础上我们才能够应用这些数据对复杂的问题展开研究。在下一节我们将介绍一种强大的统计学方法“回归分析”，这是一种非常强大的统计学方法，专门用来分析那些影响因素很多的复杂问题。

推 荐关 注

▼