想学统计学需要掌握哪些知识?
「 点击上方"大数据科学"↑↑↑,订阅微信 」
这是一个很好的问题,对于新手、特别是非统计科班出身的人来说,心里总是有这样的顾虑,掌握的统计学基础只是不够,然而又应该从哪里入手呢?以下是数据分析网(www.afenxi.com)整理自知乎的一些答案,希望对大家会有所帮助。
来自@肖玄
我认为首先要明确的是学统计干什么,如果有明确的作用,比如时间序列,市场调研这些,那么推荐书籍各不一样,统计终究只是一个工具,在实际运用中的偏重和变化还是蛮大的,如果不是有特别的目的,只是想要了解统计的话建议从理论基础看起,再看一些实际操作的书会比较好。
基础书籍,我看前面各位大师都推荐的差不多了,就不详细写了,就简单写一下我理解的基础书籍涉及的方面:
第一个是《统计学基础》,建议这个先看,至少能大致了解统计是什么东西。只看过人大版的,私底下觉得逻辑还是有点问题,大神勿喷,也许是我脑子笨。不过作为入门还是不错的。
接下来就是《概率论与数理统计》,这是所有数学学科中最霸气的一门,没有之一。
然后是《多元统计》《时间序列》,基本上到这里统计大致的框架已经有了。
其他的《非参数统计》、《贝叶斯统计》等等看自己需要。
另外这里推荐一本非主流的书,高级调查分析师考试中的《预测与决策》教材,这是我最喜欢的一本统计相关的教材,没有之一。但是貌似现在要买到比较难,如果有哪位知友知道哪里有买,那么求共享,我也只有一个打印的版
操作书籍,好吧,我知道这4个字比较糙,大家将就看。
如果要涉及开源软件,建议R,知乎上面关于学习R的数据推荐太多,不重复了,自己搜一下就行了。
就说一下SPSS,这里推荐第一个是中文版的SPSS操作手册,这个绝对是宝典,另外可以参考一本实际案例的书,哪本都行,关键是要跟着案例自己去操作分析。
通俗书籍,最后推荐一点统计的通俗书籍,理论毕竟看起来太烦,通俗的读物可以帮助更多的理解,像《统计陷阱》,《深入浅出XXX》,这些都适合入门的看一下。另外如果有明确的目的,最好看一下统计学之前分析的方法,比如如果你做市场分析方面的话,可以去了解下消费者行为学,市场营销理论,这样才能了解统计在学科上的意义。
来自@邹日佳
还是强烈推荐先把理论搞清楚,见过直接上软件搞统计的,解释数据一塌糊涂,连回归做的是因变量的期望都不知道。
前期需要:微积分
统计学知识较深,用的地方非常广,还是希望说一下您想做什么用。
是在工程上用?还是在临床试验上用?还是基因组排序上用?处理金融资产实现无风险套利时用?亦或是在法律统计上用?
无论怎样,数理方面一定要过关,不论是t统计量、卡方统计量、F统计量,一定要知道它的式子是个什么形式,这样才好说明意义,也才好进行筛选与对比,可以找《概率论与数理统计》这本书看一看
能做统计的软件太多了,SAS、R、S-PLUS、SPSS、Eviews、Matlab,都可以以后学的统计知识得看你想拿它做什么用,软件也要根据你不同的用处来选择,等你修改好问题后,我会再来具体说明的。
来自@王洪城
忽视对象和目标而谈方法,的确是耍流氓。统计学太宽、太杂,而且正处在蓬勃发展之中,任何一个细小的领域都能耗尽人的一生。况且统计学这东西,用的很广,越来越多的文科生都想用用统计来支持自己的结论。文科生、工科生、经管类学生、数学系学生有不同的目标,自然方法不一样。
不过,如果只是想要粗略地了解统计学的大概的话,还是有一些很好读的书的。比如《女士品茶》、Rao的《统计与真理》,这些可以了解(只是了解)统计的思想、哲学和历史。国内吴喜之《从数据到结论》、Freedman的《统计学》都写的很不错,有一些很好的案例,对统计的一些概念也会有一些理解。
感觉统计就跟医学差不多,对付小感冒这种病,只要自己买药,按照说明书服用,就ok了;如果只是像做个回归,看看相关系数这种,现在已经有很成熟的方法和软件,像exel和spss。遇到复杂一点的问题还是请教专业人士吧,即使你能够用一些方法得出结果,对结果的解释也是很大的一个问题,大病还是得到医院治。当然我并不是说统计很难,无法自学成功。统计并不难,只是无法速成,只是统计自身的特殊情况(对于特定情况下的模型选择、结果解释,即使在专业人士之间也会有争议)使得统计有很大的灵活性,只有对统计了解地够多,才能够应付多变的情况,得到最符合预期且合理的结果。
一句话,想得多,读得少。想了解直接就去看,缺啥补啥呗。
来自@郑来轶
给你推荐几本统计学的经典图书,《深入浅出统计学》、《漫画统计学》、《女士品茶》、《爱上统计学》、《统计陷阱》,都很不错的。
@李超群,电商数据分析猿
专注潜水二十年,头一次被邀请,照这趋势看,不用多久,我就会升职加薪,当上总经理,出任CEO,迎娶白富美,走上人生巅峰。想想还有点小激动呢~
......
呃,万万没想到,醒来后还是那个王大锤。
OK,回到正题,题主的这个问题啊,就像是在一个项目中一样,真正的用户(通常情况下我们可以称为“优秀”的用户,原因在下面解释)对自身的需求从来是不明确的,而优秀的产品经理呢,就是尽可能地明确用户的需要,然后与项目经理沟通,再交给项目成员(干活的苦力)实施完成。
说到这儿,有过喜当爹或者喜当妈经验的同学们就会有经验了。没错,想想吧,突然你家小宝贝儿哭了,哭得声嘶力竭,惊天动地。。。
怎么了?
不舒服了?饿了?渴了?痛了?冷了?热了?害怕了?
对了,这里我们要补充一个背景设定,小宝贝儿不到1岁,还不能通过语言沟通。
这个时候怎么办呢?
年轻的爸爸妈妈们开始讨论了,这是怎么回事儿,怎么突然哭了呢?
爸爸:是不是不舒服?(提出原假设H0)
妈妈:废话!你要是舒服了会哭吗?(根据长期的观测值与经验判断,舒服并哭的出现概率极低,近似为0,接受原假设,==>孩子不舒服)
爸爸:那怎么就哭了呢?上午刚哭了一次,好不容易才哄好。(判断事件发生频率是否符合常态,判断是否是异常值,检查基础数据的准确性,是否存在观察误差)
妈妈:你不耐烦了是不是?天天给你做饭,昨天吃了今天就别吃!(在绝对值上下波动,符合正态分布,基础数据的准确性没有问题)
爸爸:说到吃饭,宝宝是不是饿了啊?(由经验判别,宝宝饿了==>哭泣,提出假设:宝宝饿了)
妈妈:不可能,才喂了奶不到半个小时
(在这里我们假设正常情况下宝宝每3个小时喝一次奶,左右波动0.5小时,那么可以知道:
设X为宝宝喝奶的时间,假设服从正态分布,有X~N(μ,0.5^2),样本容量n=1,样本均值X1=0.5,提出的假设为:HO:μ=3;H1:μ≠3
设显著性水平α为0.05,所以临界值 1.96,原假设H0的否定域为V1={|Z|≥1.96}
检验统计量Z=(0.5-3)/(0.5/根号下1)=-5
因为|-5|=5》1.96,落在否定域内,所以要否定原假设,表明宝宝这次的表现不符合标准的3个小时会饿的情况,所以宝宝不是因为饿了才哭的……)
爸爸:那,是被蚊子咬了吗?
妈妈:大冬天的,哪来的蚊子?(p(冬天|蚊子)=0,不可能事件)
…………………………………………
经过无数轮讨论,呃~这时我们的宝宝声音已经哭哑了……
妈妈得到了最终结论:宝宝尿床了!
于是爸爸吩咐保姆,快给孩子换尿布,洗床单
保姆:顺利完成任务
爸爸检查保姆的任务完成情况,并制作工作周报上交给妈妈
妈妈观察宝宝的状态,觉得还可以,给了爸爸一笔钱
爸爸给保姆发工资
——整个事件得到了完美的解决——
幸好跑题还不是太远,还是可以扯回来的
其实在以上事件中,套用了一个比较简单的项目流程模型:宝宝扮演了用户的角色,提出了需求;妈妈则是产品经理,把控了整个项目的方面,并负责了用户与项目经理及项目成员的沟通协调;爸爸是项目经理,提出解决方案,交由组员实施;保姆就是实施的组员。
所以为什么说不明确自身需求的用户是“优秀”的用户呢?通常意义下,更有利于产品经理的发挥,也就是方便忽悠钱。。。去年在电力集团做SAP实施,最直观的感觉就是,只要能忽悠住了用户,实施顾问们肆无忌惮圈钱的感觉真棒!
那么在整个项目的决策与实施中,我们套用了一些统计学上的概念来解释日常的概念,是因为统计学最初是基于生活中的基本现象而产生的,比如山顶洞人一天可以采集多少浆果?赌场里连续出老千不被打断两条腿可能吗?晴川打败所有竞争者晋升为老佛爷而不被干掉的概率是多少?……
所以平常在和别人交流时,偶尔会有这种的感觉,就是通过有过系统学习统计学的背景的人,他们的思维方式会与其他背景的人存在差异,通常前者会试图通过逻辑性与概率来证明观点或思考。
也就是说,其实统计学的思维,在自觉不自觉之间就融入到了个人的生活中,刚毕业后去找工作,面试官一听说是统计学毕业,总会问一句你的专业对这份职业的优势是什么?曾经统计过我们这一级同学对这类问题的回答,大多数都回答“统计是工具,是一种思维方式,需要和其他的知识或领域结合……巴啦巴啦”(当然这也是由于我们这一级的家伙,80多个人,有50多人选修了第二专业,为了侧面烘托自己的优势也会这么去说).
所以扯了这些,其实只是想告诉题主,统计学的学习,需要先把这门知识,化为日常生活中的一点一滴,不要把统计学只落在纸面或试卷上的冰冷文字,它是有命的,在生活中习以为常的事情,背后都有各种有趣的统计知识。
虽然不清楚题主希望从事的方向(应用统计/理论统计……)
不过对于入门来讲,需要事前掌握的知识不需要多么的特殊,有一定的数理知识基础,学习了高等数学,就基本上相当于解决了前置技能,所需要的不过是找到合适的教材与合适的老师,加上认真学习,并尝试在生活中应用就可以。
推荐阅读的几本书:和楼上的几位会有重合的部分。(存在重合、图片就不一一展现了)
《女士品茶——20世纪统计学怎样变革了科学》,很有趣的统计学发展史;
《统计陷阱》数字是怎样欺骗了你
《深入浅出统计学》《深入浅出数据分析》深入浅出系列出品,必属精品
《统计与真理----怎样运用偶然性》
《统计学的世界》《爱上统计学》有些概念性的知识,可以强化掌握
《漫画统计学》系列
《社会心理学》戴维·迈尔斯 第8版--这本书作为心理学的教材,超经典。毕业前曾认真读了一遍,可以看到心理学与统计学的结合
以上书籍为课外阅读,至于正式学习的教材么~本科时基本上全使用的是人大版的教材,黄皮封面的那些,说实话,即枯燥又无味,印象最深的是人大版的《抽样技术》,有很多印刷错误,以致上课时亲爱的teacher会先花十分钟,在黑板中把本章节中错漏的地方通知大家修改过来~(PS:teacher是本校数理统计方向数一数二的大牛)后来偶然间接触了一些国外的教材,惊为天人。学习教材参见肖玄与李少洋,尚可的推荐即可
以上,为熬夜敲出,纯属个人毕业后混迹软件实施行业与电商数据分析行业的小小感悟,看看就好,不必太当真。
整理自知乎,链接:http://www.zhihu.com/question/19624858
往期推荐
请点【在看】,给数据哥加加油 ↓↓