深度学习模型、算法的数学基础-技术圈

来源：机器之心
本文约1800字，建议阅读8分钟
期待即将到来的章节。

深度学习这一领域，对于初学者而言，编程已然令人生畏，而更加令人难以接受的是，深度学习里的数学知识更难。

对于这种困惑，已经有人提前替你想到了，这不今天就为大家推荐一本新书，书中介绍了深度学习中的数学工程。书的名字为《 The Mathematical Engineering of Deep Learning 》，顾名思义，这是一本专攻数学知识的书籍。

不过这本书还在持续更新中，目前前两章内容已经放出，大家可以查阅。

本书提供了在深度学习领域关于数学工程方面的内容，除了介绍深度学习的基础之外，本书还将介绍卷积神经网络、循环神经网络、transformer、生成对抗网络、强化学习及其多种技巧。

值得一提的是该书的重点是介绍深度学习模型、算法和方法的基本数学描述。此外作者还贴心的开源了书中用到的代码。

书籍地址：https://deeplearningmath.org/

代码地址: https://github.com/yoninazarathy/MathematicalEngineeringDeepLearning

书籍介绍

全书共 10 章 3 个附录。第 1-4 章介绍深度学习领域，概述了机器学习的关键概念、深度学习所需的优化概念，并专注于基本模型和概念。第 5-8 章涉及深度学习的核心模型和架构，包括全连接网络、卷积网络、循环网络，并概述了模型调整和应用的各个方面。第 9-10 章涉及特定领域，即生成对抗网络和深度强化学习。附录 A-C 提供数学支持。

具体而言：

第 1 章简介：本章是对深度学习的概述，展示其关键应用，并调查了与高性能计算相关的生态系统，此外，本章还讨论了大数据和高维数据，包括数据科学、机器学习和统计学习在内的关键术语，并将这些术语置于本书的上下文中。

第 2 章机器学习原理：深度学习可以被视为机器学习的一个子学科，因此本章概述了关键的机器学习概念和范式。向读者介绍了有监督学习、无监督学习以及基于迭代的学习优化的一般概念。此外本章还介绍了训练集、测试集等概念，以及交叉验证和模型选择的原理。本章重点探讨了线性模型，该模型可以通过迭代优化进行训练。

第 3 章简单神经网络：本章关注二元分类的逻辑回归和多类问题的相关 softmax 回归模型。这里介绍了深度学习的原理，例如交叉熵损失、决策边界和反向传播的简单案例。本章还介绍了一个简单的非线性自动编码器架构。此外，还讨论了模型调整的各个方面，包括特征工程和超参数选择。

第 4 章优化算法：深度学习模型的训练涉及对学习参数的优化。因此，需要对优化算法有扎实的理解，以及对适用于深度学习模型（如 ADAM 算法）的专门优化技术的理解。本章将重点介绍这些技术以及正在慢慢进入实践的更高级的二阶方法。

第 5 章前馈深度网络：本章是本书的核心，定义和介绍了一般的前馈深度神经网络。在探索了深度神经网络的表达能力之后，本章通过了解用于梯度评估的反向传播算法并探索其他方面（例如权重初始化、dropout 和批归一化）来深入了解训练的细节。

第 6 章卷积神经网络：深度学习的成功可归功于卷积神经网络。本章将探索卷积概念，然后在深度学习模型的背景下了解它。本章介绍了通道和滤波器设计的概念，然后探索了具有重大影响且至今仍在使用的常见最先进架构。此外本章还探索了一些与图像相关的关键任务，例如目标定位。

第 7 章序列模型：序列模型在 NLP 中至关重要。本章探索了循环神经网络及其泛化，其中包括长短期记忆模型、门控循环单元、用于端到端语言翻译的自动编码器以及带有 transformer 的注意力模型。

第 8 章 Trade 技巧：在介绍了前馈网络、卷积网络和各种形式的循环网络之后，本章探索了在应用程序中调整和集成这些模型的常用方法。

第 9 章生成对抗网络：本章调查和探索生成对抗网络（GAN），这些模型能够合成看起来真实的假数据。本章讨论了几种 GAN 架构以及在调整损失函数时出现的有趣的数学方面。

第 10 章深度强化学习：最后一章将探讨深度强化学习的原理。

作者简介

从左到右依次为 Benoit Liquet 、Sarat Moka、Yoni Nazarathy

Benoit Liquet 为麦考瑞大学数理学院数理统计教授。主要研究包括模型选择和变量选择、多状态模型和生存分析、降维方法、贝叶斯建模、机器学习、计算生态学和环境科学的统计方法等。

Sarat Moka 为麦考瑞大学的博士后，研究重点是概率论在数据科学、统计学和蒙特卡洛模拟中的应用。其研究内容与深度学习、监督学习、无监督学习、MCMC 方法、贝叶斯推理、无偏估计、大偏差理论、方差减少技术等息息相关。

Yoni Nazarathy 为昆士兰大学数学与物理学院的副教授，擅长机器学习、应用概率、统计学、运筹学、模拟、科学计算、控制理论等。此外，Nazarathy 还与 Julia 合著了一本新书《Statistics with Julia: Fundamentals for Data Science, Machine Learning and Artificial Intelligence》。

最后附上书籍目录：

编辑：黄继彦

校对：林奕霖