应用数学新时代的曙光

纯真学者出神入化

共 9368字,需浏览 19分钟

 ·

2021-07-31 13:00

一、开普勒和牛顿范式

从牛顿时代开始,就出现了两种不同的科学研究范式:开普勒范式和牛顿范式。
开普勒范式的方法即数据驱动的方法,在此方法中人们通过数据分析来提取科学发现。最为经典的例子,开普勒基于数据驱动的方法,总结并研究行星运动定律。在现代科学中,生物信息学为现代开普勒范式的成功提供了更加令人信服的例证。牛顿范式的方法,即基于第一性原理的方法,目标是发现支配我们周围世界或我们感兴趣的事物的基本原理。最好的例子是牛顿、麦克斯韦、玻尔兹曼、爱因斯坦、海森堡和薛定谔等科学大家的研究工作。对于今天的一些最优秀的人才来说,它仍然是一个主要的游乐场。


随着统计方法和机器学习的进步,数据驱动的开普勒范式已成为一种非常强大的工具。它对于查找数据中的事实规律非常有效,但对于帮助我们找到事实背后的原因却不太有效。而另一方面,基于第一性原理的牛顿范式旨在理解最基本的层次。特别是在物理学,所有的研究都是由对这些基本原理的追求所驱动的。一个转折点是1929年量子力学的建立,正如狄拉克所宣称的那样:有了量子力学,我们已经掌握了除物理学之外的大部分工程和自然科学所需的基本原理。


然而,也同样正如狄拉克所指出的,描述量子力学定律的数学问题异常复杂。难点之一是它是一个多体问题:添加一个电子,问题的维数增加了三。这是我们在基于第一性原理的方法中经常面临的困境:第一性原理是最基本可行的方法,但不是非常实用的方法。因此,在实践中,我们往往不得不放弃严谨而优雅的理论,而求助于临时的、非系统的近似(例如在密度泛函理论中时常对电子体系进行各种各样的假设和简化[译者注])。此外,我们付出的代价不仅仅是缺乏严谨和优雅,还有结果的可靠性和可转移性。
应用数学也在沿着类似的路线发展。由于物理学的第一性原理方法是根据偏微分方程(PDE)制定的,因此PDE的分析和数值计算算法在应用数学中占据了核心地位。应用数学的目标有三重:1.解决实际问题;2.理解问题背后的数学原理;3.提供对这些实际问题的物理洞察力。一个非常引人注目的成功例子是流体力学。流体力学不仅是偏微分方程研究的主要推动力,而且流体力学研究在很大程度上已成为一门计算学科的事实也证明了所开发的数值算法的成功。多年来,对这些偏微分方程和数值计算算法的研究一直是应用数学的中心主题,今天仍然是一个活跃的领域。


当我[作者鄂维南,译者注]在UCLA读研究生时,我们很自豪地被告知我们属于“Courant-style Applied Math”阵营,这个术语被创造出来是为了与“British-style Applied Math”阵营区分开,两者都专注于流体力学。British-style阵营倡导物理洞察力和渐近性,领导者Taylor、Batchelor、C. C. Lin、Lighthill等人不仅是伟大的应用数学家,也是领先的理论流体动力学家。但是众所周知,他们通常对数字和严谨的分析并不十分重视。Courant-style阵营拥护数字和定理(俗称“定理证明者”)。它的理念是,只要底层的偏微分方程和数值计算算法是可靠的,就可以通过计算求解学到很多东西。毕竟物理过程非常复杂,没有计算求解就不能走多远。他们的一些领导人,如von Neumann, Courant, Friedrichs和Lax等人不仅是伟大的应用数学家,也是伟大的纯数学家。这两所阵营之间的不和,被认为是应用数学中的主要矛盾。
数据驱动的研究有时候也叫“Card-carrying研究”,源于主要在跑显卡进行统计数据计算。但是无论出于何种原因,直到最近,“统计学”的发展几乎都独立于“应用数学”之外,事实上,往更大的角度来讲是独立于“数学”之外。因此我们可以发现,数学系或应用数学系的课程包含统计数据是非常罕见的。只是在最近几年,才出现了变革的呼声。


这并不意味着应用数学的阵营对数据驱动方法不感兴趣。相反,自80年代后期以来,随着小波计算和压缩感知的研究工作,信号和图像处理已成为应用数学的中心。事实上,这种数据驱动方法的应用数学版本一直是过去30年来应用数学中最富有成效的领域之一。
但这也不意味着流体力学是对偏微分方程感兴趣的应用数学家唯一成功的领域。事实上,有些人会争辩说,固体力学同样成功:毕竟,有限元方法是应用数学中最重要的成功案例之一,它起源于固体力学。另一个成功案例是数值线性代数:只需看看Matlab的流行程度即可了解其广泛的影响。当然,这个名单还在继续。

二、“Courant-style Applied Math”的危机

不幸的是,对于我这一代“Courant-style”的应用数学家来说,流体力学的主导地位和成功与其说是机遇,不如说是挑战。我们之前几代人已经奠定了PDE和流体力学的基础工作。我们要么解决剩余的问题,如湍流等,要么征服新的领域。两者都被证明是困难的,更不用说重现应用数学在流体力学中取得的那种成功了。
事实上,在流体力学之后,Courant-style应用数学已经扩展到许多其他科学和工程学科,如材料科学、化学、生物学、神经科学、地球科学和金融,并取得了很大的成功。但总的来说,这些领域的成功程度与我们在流体力学中看到的不符。我们的贡献受到欢迎,但它们往往是渐进的,而不是变革性的。因此,为了解决这些领域面临的核心问题,科学家或从业者往往不得不求助于既不可靠又令人不快的临时近似值。这种情况存在于量子力学、分子动力学、化学反应研究、复杂流体模型、塑性模型、蛋白质结构和动力学、湍流建模、控制问题、动态规划等。大多数(并不是全部)问题的核心困难在于它们本质上是高维问题,而我们被维数诅咒所困扰。
对于上面列出的大多数问题,高维是问题的多尺度性质的结果,多尺度、多物理建模的想法带来了一线希望。通过在小尺度上将无关紧要的自由度集中在一起,人们应该能够直接使用更可靠的微尺度模型来提出更有效的算法。对于我们感兴趣的宏观过程,虽然很有前途,但到目前为止,多尺度建模的成功受到以下限制:
1.微观模型本身通常不那么可靠。例如,在研究裂纹扩展时,我们经常使用分子动力学作为微观模型。但是这些模型对于涉及断键的过程的准确性通常是有问题的。
2.尽管多尺度建模可以大大减少所需的微尺度模拟的规模,但它仍然超出了我们目前的能力。

三、机器学习来拯救

我们可以看到上述困难的核心是我们处理许多变量函数的能力有限,而这正是机器学习可以发挥作用的地方:通过提供逼近许多变量函数的能力,以前被认为不可能的事情现在变得很有可能。
在机器学习之前,一个经常处理许多变量函数的领域是数值积分。在统计物理学中,我们几乎理所当然地认为我们有能力计算数百万个变量的函数的积分,而忘记了这实际上是多么了不起。这是通过蒙特卡罗算法和多年来开发的方差减少技术实现的。一方面,与基于网格的算法(如辛普森规则)相比,蒙特卡罗算法的收敛速度与维度无关。
在高维中逼近函数是一项困难得多的任务,而机器学习的成功并不容易。尽管神经网络模型很久以前就被发现了,但直到最近,科学家才认识到它们在逼近许多变量的函数方面的全部潜力。然而,在很短的时间内,我们已经看到在机器学习的帮助下,在几个长期存在的问题上取得了一些显着的成就,并且有望在不久的将来取得更多成就。
机器学习与应用数学的整合将从根本上改变这些学科。在下文中,我们将讨论一些具体示例,以说明这将对科学计算、建模、机器学习和纯数学产生的影响。

四、高维控制理论和偏微分方程

机器学习在科学计算中的首批成功应用案例之一,是针对高维控制问题的基于深度学习的计算算法。首先,有趣的是术语“维度诅咒”是由Richard Bellman在动态规划的背景下首次创造的。事实上,Bellman方程的维数与控制问题的状态空间的维数相同:如果我们对控制偏微分方程感兴趣,Bellman方程是无限维的。这严重限制了“基于第一性原理”的控制理论的应用,许多实际问题必须使用点对点分析来解决,就像解决量子多体问题一样。
在闭环控制的框架内,最优策略函数是状态的函数。如果通过神经网络参数化这个策略函数,那么随机控制和深度学习之间有一个非常好的相似之处:控制问题的成本函数是损失函数;控制问题的动力系统起到了深度残差网络的作用;动力系统中的噪声扮演着训练数据的角色,让我们可以使用随机梯度下降算法进行训练。使用这种基于深度学习的算法,人们可以处理数百甚至更高维度的常规随机控制问题。它也已扩展到确定性控制问题和一般非线性抛物线偏微分方程。
这些算法为处理现实世界的控制问题和高维偏微分方程打开了大门。这是一个令人兴奋的新可能性,应该会影响(并且在某种程度上已经影响)经济学、金融学、运筹学和许多其他学科。

五、机器学习辅助建模

在物理学中,我们习惯于基于第一性原理的模型。这些模型不仅适用范围广,而且简洁大方。薛定谔方程就是一个很好的例子。不幸的是,如前所述,使用这些模型解决实际问题可能是一项极其困难的任务。出于这个原因,寻求简化模型一直是物理学和一般科学的永恒主题。然而,正如我们在湍流模型中所经历的那样,如果我们不求助于临时近似,通常很难提出这样的简化模型。
机器学习有望大大提高我们开发此类基于物理模型的能力。这可能发生并且已经以三种不同的方式发生。首先,它提供了可以帮助将多尺度建模梦想变为现实的缺失工具。其次,它提供了一个直接从数据开发模型的框架。第三,它可以提供一个非常强大的工具,用于沿着数据同化的路线将物理模型与观测相结合。
然而,拟合数据是一回事,构建可解释且真正可靠的物理模型是另一回事(通常情况下,一些水平不高的AI+物理方向的科学家都只是在拟合数据而已,译者注)。让我们首先讨论可解释性问题。众所周知,机器学习模型具有“黑匣子”的美誉,这为使用机器学习帮助开发物理模型造成了心理障碍。要克服这一障碍,请注意,还应从相对的角度来理解可解释性。以气体动力学的欧拉方程为例。这些方程本身很容易解释,因为它们只代表质量、动量和能量守恒。但是状态方程的细节是否可以解释并不那么重要。事实上,对于复杂的气体,状态方程可能采用代码的形式,该代码来自使用样条插值实验数据。这些样条的系数是否可解释并不是我们真正关心的问题。同样的原则也适用于基于机器学习的模型。虽然这些模型的基本出发点应该是可解释的,就像气体动力学中的守恒定律一样,进入这些模型的函数的详细形式并不都必须是可解释的。这些函数通常代表一些本构关系,就像气体动力学的状态方程一样。
现在转向可靠性问题。理想情况下,我们希望我们的基于机器学习的模型在所有实际用途中都与Navier-Stokes方程等一般物理模型一样可靠。要做到这一点,有两件事至关重要。首先是基于机器学习的模型必须满足所有物理约束,例如来自对称性和守恒定律的约束。第二个是我们用来训练模型的数据必须足够丰富,以充分代表实践中遇到的所有物理情况。由于标记数据几乎总是非常昂贵,因此选择一个既小又具有代表性的良好数据集是开发此类模型的一个非常重要的组成部分。我们将在下一节中详细说明这一点。
这些想法已经成功应用于许多问题,包括分子动力学和稀薄气体动力学。在分子动力学方面,机器学习与高性能计算相结合,使得模拟具有数亿个原子的系统成为可能,从头算精度提高了五个数量级。
这些新的发展已经相当令人兴奋。但是机器学习辅助建模的影响将在生物学和经济学等难以基于第一性原理建模的领域感受到更大的影响。这些领域已经取得了一些令人振奋的进展。

六、机器学习的新前沿

机器学习与应用数学的结合也为机器学习领域带来了一些新的机会。在这里,我们也讨论一下。

6.1.并发式机器学习

在大多数传统的机器学习设置中,训练数据要么是事先生成的,要么是被动观察的。当机器学习应用于解决科学计算或计算科学中的问题时,实际中的情况并没有那么理想,训练数据通常是即时生成的。与多尺度建模进行类比,根据多尺度模型是预先生成的还是动态生成的,将“顺序多尺度建模”与“并发多尺度建模”区分开来,我们将这种类型的机器学习称为“并发式机器学习”。如前所述,生成最小但具有代表性的数据集是并发机器学习中的一个关键问题。为此,人们需要一种有效的程序来探索状态空间,并需要一种标准来决定是否应该标记遇到的新状态:一个好的例子是EELT算法 [Weinan E, Jiequn Han, and Linfeng Zhang, Machine learning assisted modeling, to appear in Physics Today.]

6.2.机器学习的“适定”公式

除了强大的能力之外,基于神经网络的机器学习也非常脆弱——它的性能敏感地取决于模型中的超参数和训练算法。在很多情况下,参数调优仍然是一门艺术,尽管随着经验的积累,这种情况正在稳步改善。
部分原因是,在机器学习中模型和算法是在仔细考虑问题的表述之前构建的。类比的,想象一下,如果我们尝试对物理过程建模而不事先构建 PDE 模型会发生什么?实际上,从PDE模型开始并确保PDE模型是“适定”的,这是我在Courant-style应用数学中学到的最重要的课程之一。
这引发了一个问题:我们可以制定机器学习的“适定”模型吗?这个问题的期望是,如果我们从良好的连续公式开始,然后进行离散化以获得实用的模型和算法,那么在超参数的选择方面,性能会更加稳健。在[Sci. China Math. 63 (2020), no. 11, 2233–2266]中已经沿着这条路线进行了一些初步尝试。有趣的是,[Sci. China Math. 63 (2020), no. 11, 2233–2266]中的工作指出,神经网络模型是不可避免的,因为最简单的连续模型和离散化的本质总是某种形式的神经网络模型。尽管如此,这种接近机器学习的方式确实会产生新的模型和算法。更重要的是,它鼓励我们寻找首要原则,并允许我们跳出神经网络模型的框架思考。
在图像处理中可以找到一个相似的类比,比如“去噪”。去噪的标准方法是直接将精心设计的过滤器应用于图像,看看会发生什么。这种方法非常有效,特别是对于基于小波的高级滤波器。另一种方法是写下用于去噪的数学模型,通常以连续变分问题的形式,然后使用优化算法对离散化模型进行离散化和求解。著名的Mumford-Shah和Rudin-Osher-Fatemi模型就是此类数学模型的示例。人们可能会质疑这些数学模型的有效性,但拥有一个明确定义的数学模型显然有其优势。一方面,它有助于将图像处理转化为有趣的PDE问题。它还激励人们思考图像处理背后的基本原理,尽管在这方面并没有取得太大进展。
希望这种新的数学理解和公式不仅有助于促进机器学习当前的成功,而且还将其成功扩展到其他学科的广泛领域。毕竟,机器学习是关于函数逼近的,这是数学中一个非常基本的问题。拥有在高维中特别有效的表示和近似函数的新方法肯定会产生重大而广泛的影响。

七、高维分析

不仅仅是应用领域会受到影响,数学本身也会受到影响,尤其是“数学分析”方面。
机器学习在高维度上带来了许多新的分析问题,从逼近函数到逼近概率分布、动力系统,以及求解偏微分方程和类贝尔曼方程。研究这些问题,必然会催生出一门新的数学学科:高维分析。
在这个方向上,数学中已经受到重视的一个领域是高维积分。蒙特卡罗方法的分析,特别是马尔可夫链蒙特卡罗方法,在相当长的一段时间内一直是概率论和数学物理中的一个活跃领域。
积分是分析中最基本的问题。人们可以提出更多关于函数、概率分布、动力系统、变分计算和偏微分方程的高级问题。例如,表征这些对象的复杂性。在抽象层次上,复杂性应该由给定对象被简单的基本对象近似的难度来定义。例如,对于函数,基本对象可以是多项式、分段多项式或神经网络。对于概率分布,基本对象可以是高斯分布的混合。
以函数的复杂性为例,传统上,这是通过函数可以微分多少次来定义的(即平滑度)。沿着这条线定义了许多函数空间的层次结构,例如𝐶𝑘空间、Sobolev空间和Besov空间。在低维情况下,这是完全合理的。确实可以证明,当这些空间中的函数被某些基本函数(例如分段多项式或三角函数)逼近时,它们的收敛速度是不同的。
这种类型的结果会受到“维度诅咒”的影响。事实上,越来越清楚的是,基于平滑度的概念并不是衡量高维函数复杂性的正确方法。相反,人们应该通过它们是否可以被特定的神经网络类模型有效地近似来衡量高维函数的复杂性。通过这种方式,我们获得了再生核希尔伯特空间(RKHS)、巴伦空间、多层空间和流动诱导空间,其中每一个都与特定类别的机器学习模型自然相关。
高维的PDE怎么样?一个自然的问题是,我们是否可以为上述函数空间中的某些类别的偏微分方程开发正则理论。如果可以,这意味着人们应该能够使用相应的机器学习模型有效地近似这些偏微分方程的解。这个问题对于Hamilton-Jacobi-Bellman方程尤为重要。

八、应用数学作为一门成熟的学科

应用数学能否像纯数学一样成为一门由少数主要成分组成的统一学科?我们可以有一个合理统一的课程来教育应用数学家吗?这些问题长期以来一直难以解决。回过头来看,很明显情况还不成熟。一方面,应用数学确实非常多样化,几乎涉及科学和工程的每一个学科。寻求统一和统一课程无疑是一项艰巨的任务。另一方面,应用数学的核心缺少机器学习等主要组件这一事实意味着它还没有准备好。想象一下没有代数的纯数学会是什么样子。
随着机器学习的出现,情况发生了变化,应用数学的所有主要组成部分都已就位。这意味着应用数学终于准备好成为一门成熟的科学学科。是的,新的方向将继续出现,但有理由相信基本面或多或少会保持不变。这些基础是:(基于第一原理的)建模、学习和算法。

8.1.应用数学的主要组成部分

代数、分析、几何和拓扑构成了纯数学的主要组成部分。对于物理学,它们是经典力学、统计力学、电磁学和量子力学。应用数学的主要组成部分是什么?下面是一个提议。它并不是关于该主题的最后一句话,而应该是需要进一步讨论的起点。
应用数学包含三个主要组成部分:

1.基于第一原理的建模,包括(物理)模型本身以及这些模型的分析工具。简单来说,前者是关于物理的,后者是关于微分方程的。物理模型背后的原理是物理学的基本定律和原理:物理设置(例如,经典与量子、惯性主导与过阻尼)、变分原理、守恒定律等。这些基本原理是根据变分问题或微分方程来表述的。因此,我们需要分析工具来处理这些数学问题。渐近方法可以快速捕捉问题的本质,并为我们提供急需的洞察力。除了阐明问题之外,严格的定理还有助于为事情打下坚实的基础。

2.数据驱动的方法。到目前为止,数据驱动方法中最重要的部分是机器学习,当然也包括统计和数据(图像)处理。

3.算法。在这里,我们考虑了基于第一原理的应用程序和数据驱动的应用程序的算法。幸运的是,这两个领域的算法有很多共同点。一个例子是优化算法。它们不仅在机器学习的成功背后发挥了关键作用,而且许多基于第一原理的模型被表述为需要优化算法的变分问题。


8.2.课程和教育

大多数(如果不是全部)一流大学都有相当成熟的纯数学本科和研究生课程。很少有成熟的应用数学课程。更糟糕的是,在某些情况下,应用数学课程是作为一套技巧教授的,而不是一个统一的主题。一个例子是“数学建模”课程。虽然这是一门应用数学的基础入门课程,但它通常作为一组示例进行教学,没有连贯的大图。缺乏成熟的应用数学本科课程是应用数学的一个最重要的障碍,因为它阻碍了我们吸引年轻人才的能力。
随着应用数学的主要组成部分明确,我们现在可以设计统一的应用数学课程。当然,本课程以上述三个主要组成部分为中心。我们简要讨论每一个。
建模有两个部分:模型的物理原理,以及分析这些模型的数学工具。前者就像物理学的基础知识,教给数学家。后者是应用分析,包括 ODE 和 PDE、变异演算、概率分布分析、渐近性和随机分析。每个都可以涵盖一年的课程。
学习真正意味着数据分析。它由机器学习、数据处理和统计组成。已经有适合应用数学家的成熟的数据处理和统计课程。机器学习的情况有所不同。它通常以适合计算机科学家的风格教授。我们需要一种方法来向数学家教授这一点。在这一点上,机器学习的数学视角还不是一个成熟的学科,但这种情况正在迅速改善。我们相信机器学习课程的合理数学介绍很快就会开发出来,并且可以作为一个学期的课程来教授。
算法有两部分:连续对象的算法和离散对象的算法。前者包含在数学系提供的数值分析课程中。后者包含在算法/离散数学课程中,通常在计算机科学系教授。通过机器学习,这两部分结合在一起,因此以更统一的方式教授它们很重要。
开发所有这些课程需要付出巨大的努力,但我们应该而且能够做到。

九、应用数学作为跨学科研究的基础

有了这样的计划,应用数学将成为跨学科研究的基础。毕竟,建模、学习和算法是所有理论跨学科研究的基本组成部分。上述应用数学课程将有助于系统化学生的培训以及跨学科研究计划的组织。如果这成为现实,这将是跨学科研究史上的一个转折点。
这一切都需要时间。一方面,我们需要从基础开始,培养年轻学生。但在我们有机会培训他们之前,我们必须能够吸引他们学习应用数学。在普林斯顿大学任教 20 多年,令我印象非常深刻的一件事是数论能够吸引许多人才。我现在相信,令我惊讶的是,应用数学也有潜力做到这一点。应用数学具有所有对年轻学生特别有吸引力的主要特征:问题的简单性和优雅性(例如,机器学习)以及这些问题带来的挑战(例如,湍流),以及它是其中之一的额外好处通向最激动人心的科学和技术新发展的主要途径。我们开始在研究生阶段看到这种变化。
在科学史上,有两个时期对应用数学产生了最大的影响。第一个是牛顿时代,在此期间确立了数学应该是科学的语言。第二个是冯诺依曼时代,其间提出数值算法应该是数学和科学之间的主要桥梁。现在第三次即将到来,应用数学的所有主要组成部分都已到位,这不仅是跨学科科学研究的基础,也是令人兴奋的技术创新的基础。这确实是一个激动人心的时刻。让我们大家共同努力,让这成为现实!

译自:The Dawning of a New Era in Applied Mathematics [点击“阅读原文”]
作者:Weinan E



长按识别二维码关注我们

微信号 :RPIBMEPhD



这是一群致力于科研传播的faculty & PhD记录分享点滴思考的平台,这里有我们在各自领域(机器学习,医疗影像,材料科学,凝聚态物理,生物信息,光学成像等)涉猎研究的点滴感悟,有我们在国内,海外求学工作奋斗的酸甜苦辣,亦有偶尔的风月和我们的诗与远方。

          ——纯真学者团队

浏览 26
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报