数据预处理教程来了
预处理是数据分析中必不可少的工程!
预处理之所以重要,是因为它会对后续的数据分析质量、模型预测精度产生极大影响。我们在实际项目中拿到的数据往往是杂乱无章的(数据缺失、数据不一致、数据重复等),要想应用恰当的分析方法得到理想结果,就必须通过一些方法提高数据质量,而这就是预处理的工作。
然而,预处理如此重要,市面上相关图书却少之又少,原因在于预处理是一项难以总结的技术,其知识不够体系。这就导致我们只能得到一些碎片式的信息,无法系统了解。专业资料之匮乏,可能也是下面这本《数据预处理从入门到实战:基于SQL、R、Python》原版一上市就迅速进入日亚计算机类图书销量排行榜No1,并在3个月内重印4次的原因之一。
这本书系统总结了预处理的常见任务,言简意赅,255页,全书结构如下:
这本书的几大特色:
本书采用问题驱动式结构,先抛出常见预处理任务,引导读者思考如何实现。像这样带着问题学习,可以大大提高学习效果,让理解更深入。
(本书例题示例)
分别用SQL、R、Python对比解决相同的案例问题,可以了解各语言在处理各种预处理问题时有哪些优缺点,从而根据情况选择合适的语言,提升预处理效率。
对于每道例题,都同时给出用SQL、R、Python3种语言缩写的一般代码与理想代码,并对代码中的关键点进行说明。读者不仅可以边阅读边思考如何修改一般代码,还可以通过与理想代码的对比明白如何优化代码。
(案例之一)
(针对案例首先给出预处理步骤,再分步骤详细讲解)
评论