《面向机器学习的特征工程》.pdf-技术圈

前段时间发现apachecn在github上翻译了一本和特征工程相关的书籍：《Feature Engineering for Machine Learning》，中文名为《面向机器学习的特征工程》。

这本书包含了特征工程中的数字处理技巧、文本数据处理方式、特征缩放、类别特征、降维、非线性特征提取、自动化特征提取等方面，非常适合初学者。

书籍简介

特征工程对于应用机器学习来说是基础的，但是使用域知识来加强你的预测模型既困难成本又高。为了弥补特征工程现有资料的不足，本书将会为初中级数据科学家讲解如何处理这项广泛应用却鲜见讨论的技术。

特征工程是机器学习流程中至关重要的一个环节，然而专门讨论这个话题的著作却很少。本书旨在填补这一空白，着重阐明特征工程的基本原则，介绍大量特征工程技术，教你从原始数据中提取出正确的特征并将其转换为适合机器学习模型的格式，从而轻松构建模型，增强机器学习算法的效果。

然而，本书并非单纯地讲述特征工程的基本原则，而是通过大量示例和练习将重点放在了实际应用上。每一章都集中研究一个数据问题：如何表示文本数据或图像数据，如何为自动生成的特征降低维度，何时以及如何对特征进行标准化，等等。最后一章通过一个完整的例子演示了多种特征工程技术的实际应用。书中所有代码示例均是用Python编写的，涉及NumPy、Pandas、scikit-learn和Matplotlib等程序包。

- 数值型数据的特征工程：过滤、分箱、缩放、对数变换和指数变换

- 自然文本技术：词袋、n元词与短语检测

- 基于频率的过滤和特征缩放

- 分类变量编码技术：特征散列化与分箱计数

- 使用主成分分析的基于模型的特征工程

- 模型堆叠与k-均值特征化

- 图像特征提取：人工提取与深度学习

第 1 章从数字数据的基本特征工程开始：过滤，合并，缩放，日志转换和能量转换以及交互功能。

第 2 章和第 3 章深入探讨了自然文本的特征工程：bag-of-words，n-gram 和短语检测。

第 4 章将 tf-idf 作为特征缩放的例子，并讨论它的工作原理。

第 5 章讨论分类变量的高效编码技术，包括特征哈希和 bin-counting。

第 6 章中进行主成分分析，我们深入机器学习的领域。

第 7 章将 k-means 看作一种特征化技术，它说明了模型堆叠的有效理论。

第 8 章都是关于图像的，在特征提取方面比文本数据更具挑战性。在得出深度学习是最新图像特征提取技术的解释之前，我们着眼于两种手动特征提取技术 SIFT 和 HOG。

第 9 章中完成了一个端到端示例中的几种不同技术，为学术论文数据集创建了一个推荐器。

中文版HTML

中文版的HTML格式如下，左侧为目录，右侧为具体内容，可以点击左侧目录跳转到对应的正文内容，非常方便。

获取方式

全套电子书中文版HTML+英文版PDF获取

为了方便大家，附上书籍云盘下载链接。

点击下方👇名片关注：机器学习算法那些事 ，后台回复 1101（建议复制）即可获得百度网盘地址。

注意⚠️：是在上方👆公众号后台消息框中回复 1101，而非本号！