如何学好机器学习数据挖掘？这本《数据分析数学基础》图文并茂带你学习入门-技术圈

来源：专知

本文为书籍，建议阅读5分钟 
推荐一本数据分析实用书！

对机器学习和数据挖掘很感兴趣，但是数学表示法看起来又奇怪又不直观，那就看看这本书吧。它从概率和线性代数开始，逐渐建立到现代研究论文中使用的常见符号和技术-重点是简单、可爱和实际使用的基本技术。它充满了大量的简单的例子，数以百计的插图和解释，突出的几何解释正在发生什么。抽象的数学和分析技术和模型的动机是真实的问题，并提醒读者在使用这些强大的工具时内在的伦理考虑。

、

本书的目的是介绍了许多现代数据分析所需的基本数学原理和技术。特别是，它是由主要在两门课程中讲授的材料构建而成的。第一个是早期的本科课程，旨在帮助学生在严格的机器学习和数据挖掘课程中取得成功。第二门课程是高级数据挖掘课程。它应该对这类课程的任何组合都有用。这本书介绍了在本科课程中经常缺席或简短的关键概念工具，对大多数学生来说，有助于多次看到。在这些基础之上，它介绍了构成现代数据分析主干的最基本技术的通用版本。然后深入探讨一些更高级的主题和技术——仍然专注于清晰、直观和持久的想法，而不是不断发展的最新技术中的具体细节。

https://mathfordata.github.io/

本书范围

引入的重要概念包括度量的集中和PAC边界、交叉验证、梯度下降、各种距离、主成分分析和图表。这些思想对于现代数据分析是必不可少的，但在计算机科学或数学系的其他数学入门课程中却很少教授。或者，如果教授这些概念，它们是在一个非常不同的背景下呈现的。

我们对监督(回归和分类)和非监督(主成分分析和聚类)学习的基本技术做了阐述。我们努力使这些主题的表述和概念保持简单。我们最初主要坚持那些试图最小化误差平方和的方法。我们首先使用经典但很有效的算法，如Lloyd的k-means，幂法的特征向量，和感知器的线性分类。对于许多学生(甚至是计算机科学课程的学生)来说，这是他们遇到的第一个迭代的、非离散的算法。有时，这本书冒险超出这些基础知识，进入概念，如正则化和Lasso，局部敏感哈希，多维尺度，光谱聚类，神经网络基础，和数据草图。这些课程可以穿插进去，让课程更深入，更高级，因为适合学生的水平。