霍普金斯大学教授强烈推荐的5本数据科学经典书籍

BrainTechnology

共 2335字,需浏览 5分钟

 ·

2022-05-31 11:37

来源:https://fivebooks.com/best-books/data-science-roger-peng/

翻译内容来源程序员书库


数据科学在近几年变得非常流行,Roger D. Peng是一名霍普金斯大学的生物统计学教授,美国统计协会的会员,同时他也是最大的数据科学在线课程的创始人之一。今天,我们就一起来看看他都推荐了哪些关于数据科学的书籍。



在我们知道这些书单之前,先了解一下Roger D. Peng是如何从生物统计科学转向数据科学?


Roger D. Peng:在我看来,我作为生物统计学家所做的大部分工作和我作为数据科学家所做的是一样的。数据科学的范围很广,许多人都离不开它,这也是为什么近几年会出现“数据科学”这个概念的原因,真正让我更深入这个社区的是一系列的课程,我和我的同事Brian Caffo和Jeff Leek通过Coursera开展的一系列数据科学和R语言教程。


目前已经有8000多名学生参加完Roger D. Peng的完整在线数据科学专业课程,数百万人选修了其中一到两门课程。话不多说,接下来就来看看Roger D. Peng推荐的这几本书



1、《Statistical Evidence》


推荐理由:Richard Royall也是霍普金斯大学的教授,但在我加入之前他就已经退休了,这本书彻底改变了我对数据分析和统计思维的看法,这本书很薄,读起来很快,但我已经读了20~30遍。每一次,我都可以从里面学到新东西,它有点学术性和数学性,比确实需要一些统计学背景才能更好地阅读它。


它讲的是数据提供给你的东西和你把数据和外界事物结合起来会发生什么之间的区别。他还解释了统计学中的概率论、贝叶斯理论等,他主要的观点是我们做的一些事情可以追溯到数据,你需要把两件事情分开,一是建立数据,然后才是决定要用它去做什么(比如决策、病人参与试验等等)


我们经常将数据和外部元素相结合从而做出决策,但是许多工具将这些因素打包在一起,反而让事情变得复杂,Royall的思维方式对于我来说很新颖,它对我如何进行数据分析产生了深远的影响,很多关于数据分析的讨论都倾向于把所有事情混在一起,因为它们是“数据相关”的,但是不要忘了,数据分析师的角色固然重要,但是他们和科学家或决策者的角色是不同的,我们要把他们区分开来。



2、《Visualize This》


推荐理由:Nathan Yau是一名统计学家,和我一样拥有加州大学洛杉矶分校(University of California, Los Angeles)的博士学位,Yau在他的博客‘Flowing Data’中写了很多关于数据可视化的文章,这本书就是关于如何更好的将数据呈现给其他人,你可以使用哪些工具,以及你可以实现的可视化类型有哪些。


Yau在这个领域是一个很了不起的专家,他在他网站上展示的那些例子都是经过精心设计的,你可以从这本书里学到的一件事就是思考你在做什么,以及确保你的数据可视化达到你的理想结果。



3、《Storytelling with Data》


推荐理由:Cole Nussbaumer Knaflic曾在谷歌任职,离开谷歌后写下了这本书,她和Nathan Yau有一个关于数据分析的博客——‘Storytelling with Data’,她非常注重可视化,本书关注的是那些将成为分析或报告的接收端的受众,最重要的是考虑他们需要的是什么,以及分析数据时,哪些选择对受众是最佳的。


她另一个重要的思想是你如何讲述数据分析呈现的效果,在进行数据分析时,你可能会创建了数百张图片从而拟合数千个查看数据的不同方式,但最后你一定要把这些结果整理成连贯的东西。从某种程度上来说,一个数据的分析和输出只完成了四分之三,最后一个的部分是你要从中建立一个最终的“数据产品”。



4、《An Introduction to Statistical Learning》


推荐理由:这本书是由机器学习领域的一群权威作者写的,同时,他们也是伟大的作家,同一家出版社还出版了另一本书,叫做《the Elements of Statistical Learning》,这本书更先进一些,可以吸引更多的读者,如果您真的想深入了解目前使用的模型和统计工具的核心内容,这是一个很好的参考资料,也是一个很好的学习方法。书里面有很多代码示例,其中包括一个用R包来实现模型、运行示例等。


这本书使用R编写代码,我用R语言已经20年,我在学校的时候就开始使用它了,那时我对Python还不太了解,无论怎么说,Python和R都是两门很好的语言。这是一本相当有深度的书籍,在数学方面比其他类似的资源要多一点,而且比最近的许多课程更注重数学,这些课程向你展示了可以使用的“现成的”机器学习算法,而没有过多地介绍底层模型。



5、《Design Thinking Understanding How Designers Think and Work》


推荐理由:我选择的五本书在数据科学方面是相当抽象的,我本可以推荐一堆关于详细统计、R编程等方面的书籍,但我故意选了一些高一点的书籍,作为一个做过大量数据分析的人,我发现当你分析数据的时候很容易缺乏正确的思维模式,大多数大学都有一个叫做“数据分析”的课程,通常它会提供各种有用的工具,但很少讨论分析本身实际发生了什么。


所以这本书是关于一般的设计,而不是具体的数据分析,因为每一项数据分析都是独一无二的,因此很难在不同的经验中进行归纳


---END---



谢谢大家观看,如有帮助,来个喜欢或者关注吧!


本文仅供学习参考,有任何疑问及建议,扫描以下公众号二维码添加交流:




浏览 65
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报