新书上市 | 史上最系统全面的预处理教程来了!
共 1654字,需浏览 4分钟
·
2021-02-02 10:10
“三天了,我还在做数据预处理。”
“第一步就卡住了,数据预处理也太难了吧!”
“妈呀,弄了我几个月的问题,原因竟然是我预处理数据的时候方法不好。”
“脑子空空如也,此时此刻,为啥没有人告诉我,原来我可以死在数据预处理上。”
……
网上随手搜一下,就会发现对数据预处理的抱怨比比皆是。围绕数据预处理的关键词有两个——“重要”“难”。很多数据分析相关的图书和文章都这样介绍预处理:
预处理之所以重要,是因为它会对后续的数据分析质量、模型预测精度产生极大影响。我们在实际项目中拿到的数据往往是杂乱无章的(数据缺失、数据不一致、数据重复等),要想应用恰当的分析方法得到理想结果,就必须通过一些方法提高数据质量,而这就是预处理的工作。
然而,预处理如此重要,市面上相关图书却少之又少,原因在于预处理是一项难以总结的技术,其知识不够体系。这就导致我们只能得到一些碎片式的信息,无法系统了解。专业资料之匮乏,可能也是下面这本《数据预处理从入门到实战:基于SQL、R、Python》原版一上市就迅速进入日亚计算机类图书销量排行榜No1,并在3个月内重印4次的原因之一。
一本书掌握大数据、人工智能时代需要的数据预处理技术
KDD CUP 2015亚军得主多行业实战经验总结
[日]本桥智光 著
陈涛 译
如果你对数据预处理感兴趣,或者正在受其困扰,不妨读一读这本书。
(覆盖各种类型的数据预处理任务,系统而全面)
本书采用问题驱动式结构,先抛出常见预处理任务,引导读者思考如何实现。像这样带着问题学习,可以大大提高学习效果,让理解更深入。
(本书例题示例)
分别用SQL、R、Python对比解决相同的案例问题,可以了解各语言在处理各种预处理问题时有哪些优缺点,从而根据情况选择合适的语言,提升预处理效率。
对于每道例题,都同时给出用SQL、R、Python3种语言缩写的一般代码与理想代码,并对代码中的关键点进行说明。读者不仅可以边阅读边思考如何修改一般代码,还可以通过与理想代码的对比明白如何优化代码。
SQL一般代码 | VS | SQL理想代码 |
R一般代码 | VS | R理想代码 |
Python一般代码 | VS | Python理想代码 |
(案例之一)
(针对案例首先给出预处理步骤,再分步骤详细讲解)
本书适合新手数据科学家和对数据分析、数据挖掘感兴趣的读者阅读。
初学者可以先浏览目录,选择感兴趣的章节仔细阅读,以在自己的业务中灵活应用;有一定经验的读者通过阅读本书,可以查漏补缺,进一步提高预处理效率。
任何工作都有辉煌的瞬间,例如足球运动员进球的瞬间,厨师大火收汁后菜肴出锅的瞬间,专家顾问做报告的瞬间。而对于数据科学家,最辉煌的大概就是有了奇妙的发现或创建出高精度模型的那个瞬间。辉煌的瞬间是否会到来,与前一阶段准备工作的好坏密切相关。不同于那一刻辉煌的瞬间,准备的过程往往平淡无奇且漫长,但成败也正是在这一阶段决定的。如果你的目标是成为一流的数据科学家,那就跟随本书,把平淡无奇的预处理做到极致吧!
也可以加一下老胡的微信 围观朋友圈~~~
推荐阅读
(点击标题可跳转阅读)
老铁,三连支持一下,好吗?↓↓↓