新书上市 | 史上最系统全面的预处理教程来了!

机器学习算法与Python实战

共 1654字,需浏览 4分钟

 ·

2021-02-02 10:10


“三天了,我还在做数据预处理。”

“第一步就卡住了,数据预处理也太难了吧!”

“妈呀,弄了我几个月的问题,原因竟然是我预处理数据的时候方法不好。”

“脑子空空如也,此时此刻,为啥没有人告诉我,原来我可以死在数据预处理上。”

……


网上随手搜一下,就会发现对数据预处理的抱怨比比皆是。围绕数据预处理的关键词有两个——“重要”“难”。很多数据分析相关的图书和文章都这样介绍预处理:


预处理的工作量占数据分析任务的80%


预处理是数据分析中必不可少的工程



预处理之所以重要,是因为它会对后续的数据分析质量、模型预测精度产生极大影响。我们在实际项目中拿到的数据往往是杂乱无章的(数据缺失、数据不一致、数据重复等),要想应用恰当的分析方法得到理想结果,就必须通过一些方法提高数据质量,而这就是预处理的工作。


然而,预处理如此重要,市面上相关图书却少之又少,原因在于预处理是一项难以总结的技术,其知识不够体系。这就导致我们只能得到一些碎片式的信息,无法系统了解。专业资料之匮乏,可能也是下面这本《数据预处理从入门到实战:基于SQL、R、Python》原版一上市就迅速进入日亚计算机类图书销量排行榜No1,并在3个月内重印4次的原因之一。



一本书掌握大数据、人工智能时代需要的数据预处理技术

KDD CUP 2015亚军得主多行业实战经验总结

[日]本桥智光 著

陈涛 译



如果你对数据预处理感兴趣,或者正在受其困扰,不妨读一读这本书。


本书结构


(覆盖各种类型的数据预处理任务,系统而全面)


本书特色


54道例题,涵盖常见数据预处理技术

本书采用问题驱动式结构,先抛出常见预处理任务,引导读者思考如何实现。像这样带着问题学习,可以大大提高学习效果,让理解更深入。

(本书例题示例)





3种语言实现对比,把握每种语言的特长

分别用SQL、R、Python对比解决相同的案例问题,可以了解各语言在处理各种预处理问题时有哪些优缺点,从而根据情况选择合适的语言,提升预处理效率。

左右滑动查看更多





同时给出一般代码与理想代码,优化处理的关键一目了然

对于每道例题,都同时给出用SQL、R、Python3种语言缩写的一般代码与理想代码,并对代码中的关键点进行说明。读者不仅可以边阅读边思考如何修改一般代码,还可以通过与理想代码的对比明白如何优化代码。


SQL一般代码VS 
SQL理想代码   
R一般代码VSR理想代码
Python一般代码VSPython理想代码







通过3个综合的实战案例,带领读者体验真实的预处理过程

(案例之一)


(针对案例首先给出预处理步骤,再分步骤详细讲解






读者对象

本书适合新手数据科学家和对数据分析、数据挖掘感兴趣的读者阅读。

初学者可以先浏览目录,选择感兴趣的章节仔细阅读,以在自己的业务中灵活应用;有一定经验的读者通过阅读本书,可以查漏补缺,进一步提高预处理效率。





任何工作都有辉煌的瞬间,例如足球运动员进球的瞬间,厨师大火收汁后菜肴出锅的瞬间,专家顾问做报告的瞬间。而对于数据科学家,最辉煌的大概就是有了奇妙的发现或创建出高精度模型的那个瞬间。辉煌的瞬间是否会到来,与前一阶段准备工作的好坏密切相关。不同于那一刻辉煌的瞬间,准备的过程往往平淡无奇且漫长,但成败也正是在这一阶段决定的。如果你的目标是成为一流的数据科学家,那就跟随本书,把平淡无奇的预处理做到极致吧!


也可以加一下老胡的微信
围观朋友圈~~~


推荐阅读

(点击标题可跳转阅读)

我爱线代,线代使我快乐

麻省理工学院计算机课程【中文版】

【清华大学王东老师】现代机器学习技术导论.pdf

机器学习中令你事半功倍的pipeline处理机制

机器学习避坑指南:训练集/测试集分布一致性检查

机器学习深度研究:特征选择中几个重要的统计学概念

老铁,三连支持一下,好吗?↓↓↓


浏览 9
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报