测评:《数据科学工程实践》
↑↑↑点击上方蓝字,回复资料,10个G的惊喜
前篇:
大家好,我是老胡
周末趁看奥运会的功夫翻了一遍《数据科学工程实践——用户行为分析与建模、A/B实验、SQLFlow》这本书,测评如下:
1、这是一本数据分析方面的书,主要介绍初学者不太重视的内容——以商业场景为导向的量化方法论。说起数据分析,很多同学的入门首选是《用Python进行数据分析》,它专注于Python编程、类库、工具的使用,十分经典。但是商业理解和方法论方面涉及很多经验性的东西,不如数据技术那么通用,相关的书都很难写。这本书最大亮点是提供了实战场景和整套的分析思路,案例不像其他书那么空洞。我个人重点看了第二部分关于实验设计和分析技术的内容,重温了很多知识。
2、这本书作者居然有十几个,都是来自腾讯、滴滴、快手等一线互联网企业的数据科学家、数据分析师和算法工程师。作者人数比章节数还多,很好奇他们是怎么配合的,反正感觉章节之间特独立,有点跳跃。
3、第三部分(10-12章)主要介绍了SQLFlow和机器学习方面的内容,没有仔细看。
“SQLFlow是由滴滴数据科学团队和蚂蚁金服合作开源的一款链接数据和机器学习能力的分析工具, 旨在能够抽象出从数据到模型的研发过程, 同时配合底层的引擎适配及自动优化技术, 使得具备基础SQL知识的技术人员也可以完成大部分的机器学习模型训练,预测及应用任务。
”
SQLFlow在“AI平民化”理念之上的探索性实践,感觉不太完善(就是用SQL跑机器学习模型),远没有达到他们的愿景。SQLFlow肯定是有应用场景的,只是我没用过,也没仔细研究。单从学习角度,没发现降低了学习门槛,大家了解一下就行了,没必要放太多精力。copy了一段代码和其工作原理,大家感受一下。
SELECT * FROM iris.train
TO TRAIN DNNClassifer
WITH hidden_units = [10, 10], n_classes = 3, EPOCHS = 10
COLUMN sepal_length, sepal_width, petal_length, petal_width
LABEL class
INTO sqlflow_models.my_dnn_model;
总结:数据分析入门和从业者,值得一读。
推荐阅读
(点击标题可跳转阅读)
老铁,三连支持一下,好吗?↓↓↓