科学智能（AI4Science）赋能科学发现的第五范式-技术圈

大数据文摘转载自微软研究院AI头条

作者：Chris Bishop

未来十年，深度学习注定将会给自然科学带来变革性的影响。其结果具有潜在的深远意义，可能会极大地提高我们在差异巨大的空间和时间尺度上对自然现象进行建模和预测的能力。这种能力是否代表着科学发现新范式的曙光？

图灵奖获得者、前微软技术院士 Jim Gary 用“四种范式”[1]描述了科学发现的历史演变。第一范式的起源可以追溯到几千年前，它纯粹是经验性的，基于对自然现象的直接观察。虽然在这些观察中，有许多规律是显而易见的，但没有系统性的方法来捕获或表达这些规律。第二范式以自然理论模型为特征，例如17世纪的牛顿运动定律，或19世纪的麦克斯韦电动力学方程。这些方程由经验观察，归纳推导得出，可以推广到比直接观察更为广泛的情形。虽然这些方程可以在简单场景下解析求解，但直到20世纪有了电子计算机的发展，它们才得以在更广泛的情形下求解，从而产生了基于数值计算的第三范式。21世纪初，计算再次改变了科学，这一次则是通过收集、存储和处理大量数据的能力，催生了数据密集型科学发现的第四范式。机器学习是第四范式中日益重要的组成部分，它能够对大规模实验科学数据进行建模和分析。这四种范式是相辅相成，并存不悖的。

量子物理学的先驱 Paul Dirac（保罗·狄拉克）在1929年说过：“大部分物理学以及整个化学所需的数学理论的基本定律已完全为人们所知，而困难在于这些定律的精确应用会导致方程太过复杂而无法求解。”例如，薛定谔方程在亚原子水平上以极高的精度描述了分子和物质的行为，但高精度的数值解只有在由少量原子组成的非常小的系统中才能得到。如果扩展到更大的系统，则意味着越来越模糊的近似性，这导致人们必须在规模和准确性之间作出权衡。即便如此，量子化学计算已经具有很高的实用价值，成了超级计算机的最主要工作负荷之一。

然而，在过去的一两年里，我们看到了深度学习的一个新用途——兼顾科学发现的速度与准确性的强大工具。这种使用机器学习的新方式与第四范式数据建模截然不同，因为用于训练神经网络的数据来自科学基本方程的数值解，而非经验观察。我们可以将科学方程的数值解看作自然界的模拟器，以较高的计算成本，对众多我们感兴趣的应用进行计算——例如预测天气、模拟星系碰撞、优化聚变反应堆设计，或计算候选药物分子与目标蛋白的结合自由能。然而，从机器学习的角度来看，模拟过程的中间细节可以被视为训练数据，能够用于深度学习仿真器的训练。此类数据是完全标注的，数据的数量仅取决于计算开销。一旦完成训练，仿真器就可以高效执行新的计算，并大大提升计算速度，有时甚至能够达到几个数量级。

科学发现的“第五范式”代表了机器学习和自然科学领域最激动人心的前沿方向之一。虽然这些模拟器要变得足够快、鲁棒、通用并成为业界主流，还有很长的路要走，但它们对现实世界的潜在影响是显而易见的。例如，仅小分子候选药物的数量估计就多达10^60种，而稳定材料的总数则约为10^180种（大约是已知宇宙中原子数量的平方）。找到更有效的方法来探索这些广阔的空间，将增强我们发现新物质的能力——例如更好的治疗疾病的药物、更好的捕获大气二氧化碳的基质、更好的电池材料、能够为氢经济提供动力的新型燃料电池电极，以及无数的其他应用。

AI4Science 是一次深植于微软使命的尝试，这将充分利用我们的人工智能能力来开发新的科学发现工具，从而让我们和科学界的其他同仁能够应对人类面临的最重要的一些挑战。微软研究院成立30多年来，始终保持着好奇和探索的传统。我相信，跨越地理和科学领域的 AI4Science 团队，将为这一传统做出非凡的贡献。
——Kevin Scott，微软执行副总裁兼首席技术官

今天，我很高兴地宣布，我将领导微软研究院的一个新的全球团队，其成员来自英国、中国、荷兰等多个国家，专注于将第五范式变为现实。我们的科学智能（AI4Science）[2]团队由机器学习、计算物理、计算化学、分子生物学、软件工程和其他学科领域的世界级专家组成，他们共同致力于解决该领域中一些最紧迫的挑战。

以 Graphormer [3]模型为例，它是由我的同事，我们中国团队的负责人、微软杰出首席科学家刘铁岩[4]博士领导建立的。这是一个通用的分子建模模型，对分子有强大的表征能力，对新材料设计与药物发现将有很大帮助。最近，Graphormer 在 Open Catalyst Challenge（公开催化剂挑战赛）中夺冠，这是一项旨在通过 AI 模拟催化剂-吸附物反应体系的分子动力学竞赛，通过密度泛函理论（DFT）软件模拟了超过66万个催化剂-吸附物反应系统（1.44亿个结构-能量框架）。

另一个项目，是剑桥的团队与诺华[5]合作的生成化学（Generative Chemistry）[6]，我们携手利用 AI 为科学家赋能，加快突破性药物的发现和研发。正如诺华人工智能创新实验室全球负责人 Iya Khalil [7]最近所指出的，这项工作不再是科学幻想，而是科学现实：

人工智能不仅可以从我们过去的实验中学习，而且随着实验室中设计和测试的每一次新迭代，机器学习算法可以识别新的模式，并为早期药物发现和开发过程提供指导。希望通过这样的方式，我们可以增强人类科学家的专业知识，从而更快地设计出更好的分子。

该团队利用这一平台已经生成了多个非常有前景的早期分子，这些分子已被合成，用于进一步的探索。

除了中国和英国的团队外，我们位于荷兰的团队也在不断发展壮大，全球知名机器学习专家 Max Welling [8]也加盟其中。今天，我同样高兴地宣布，我们在阿姆斯特丹的全新实验室将落户正在建设中的阿姆斯特丹科学园 Matrix One[9]。这个专门建造的办公空间紧邻阿姆斯特丹大学和阿姆斯特丹自由大学，我们将通过联合培养博士生等计划，与这两所大学保持紧密合作。

阿姆斯特丹科学园 Matrix One

我们怀着自豪和兴奋的心情汇聚成一个跨地域的团队，追随先驱者的脚步，为科学发现的下一个范式做出自己的贡献，并在此过程中给诸多重要的社会挑战带来有益的影响。如果你也和我们有着同样的激情和抱负，希望加入我们的团队，欢迎点击阅读原文查看我们的开放职位[10]，也欢迎你与我们的团队成员取得联系。