对机器学习和数据挖掘很感兴趣,但是数学表示法看起来又奇怪又不直观,那就看看这本书吧。它从概率和线性代数开始,逐渐建立到现代研究论文中使用的常见符号和技术-重点是简单、可爱和实际使用的基本技术。它充满了大量的简单的例子,数以百计的插图和解释,突出的几何解释正在发生什么。抽象的数学和分析技术和模型的动机是真实的问题,并提醒读者在使用这些强大的工具时内在的伦理考虑。
、本书的目的是介绍了许多现代数据分析所需的基本数学原理和技术。特别是,它是由主要在两门课程中讲授的材料构建而成的。第一个是早期的本科课程,旨在帮助学生在严格的机器学习和数据挖掘课程中取得成功。第二门课程是高级数据挖掘课程。它应该对这类课程的任何组合都有用。这本书介绍了在本科课程中经常缺席或简短的关键概念工具,对大多数学生来说,有助于多次看到。在这些基础之上,它介绍了构成现代数据分析主干的最基本技术的通用版本。然后深入探讨一些更高级的主题和技术——仍然专注于清晰、直观和持久的想法,而不是不断发展的最新技术中的具体细节。https://mathfordata.github.io/引入的重要概念包括度量的集中和PAC边界、交叉验证、梯度下降、各种距离、主成分分析和图表。这些思想对于现代数据分析是必不可少的,但在计算机科学或数学系的其他数学入门课程中却很少教授。或者,如果教授这些概念,它们是在一个非常不同的背景下呈现的。我们对监督(回归和分类)和非监督(主成分分析和聚类)学习的基本技术做了阐述。我们努力使这些主题的表述和概念保持简单。我们最初主要坚持那些试图最小化误差平方和的方法。我们首先使用经典但很有效的算法,如Lloyd的k-means,幂法的特征向量,和感知器的线性分类。对于许多学生(甚至是计算机科学课程的学生)来说,这是他们遇到的第一个迭代的、非离散的算法。有时,这本书冒险超出这些基础知识,进入概念,如正则化和Lasso,局部敏感哈希,多维尺度,光谱聚类,神经网络基础,和数据草图。这些课程可以穿插进去,让课程更深入,更高级,因为适合学生的水平。