AI for Science:人工智能改变化学领域,机器学习范式加速化学物质发现
共 4746字,需浏览 10分钟
· 2022-04-10
来源:机器之心 本文约4500字,建议阅读9分钟
本文介绍了人工智能在化学领域的发展。
然而,随着当前人工智能、以数据为中心的技术和不断增长的数据量的进步,我们可能正在目睹一种变化,计算方法不仅用于协助实验室实验,还用于指导实验。
化学物质发现过程
那么人工智能是如何实现这种转变的呢?一个特别的发展是将机器学习应用于材料发现和分子设计,这是化学中的两个核心问题。
在传统方法中,分子的设计大致分为四个阶段,如下图所示。需要注意的是,每个阶段都可能需要数年时间和许多资源,并且不能保证成功。
生成式化学的兴起
虽然更快的计算是一种改进,但它并没有解决我们仍然局限于已知化合物的事实 —— 这只是活性化学空间的一小部分。我们仍然必须手动指定想要分析的分子。我们如何扭转这种范式并设计一种算法来搜索化学空间并为我们找到合适的候选物质呢?答案可能在于将生成模型应用于分子发现问题。
但在我们开始之前,有必要谈谈如何以数字方式表示化学结构(以及哪些可以用于生成式建模)。在过去的几十年中已经开发了许多种表示,其中大部分属于以下四个类别之一,分别是字符串(string)、文本文件(text )、阵列(array)和图(graph)。
尽管还处于起步阶段,但使用人工智能探索化学空间已经显示出巨大的前景。它为我们提供了探索化学空间的新范式,以及一种新的检验理论和假设的方法。虽然经验主义不像实验研究那样准确,但使在可预见的未来,基于计算的方法仍将是一个活跃的研究领域,并且已经成为任何研究团队的一部分。
其它使用案例以及面临的挑战
到目前为止,我们已经讨论了 AI 如何通过利用生成算法来搜索化学空间,从而帮助更快地发现新化学物质。虽然这是最值得注意的用例之一,但并不仅限于此。人工智能正被应用于化学中的许多其他问题,其中包括:
实验室中的自动化工作。我们可以使用机器学习技术来加速合成工作流程。一种方法使用 “自动驾驶实验室” 来自动化日常任务、优化资源支出并节省时间。一个相对较新的,但值得注意的案例是使用机器人平台 Ada 来自动化薄膜材料的合成、处理和特征化(请参阅此处的平台)。另一项研究展示了使用移动机器人化学家能够操作仪器,并在八天内对 688 次实验进行测量; 化学反应预测。我们可以使用分类模型来预测将发生的反应类型,或者简化问题并预测某个化学反应是否会发生。这个问题有很多不同的建模方法; 化学数据挖掘。像许多其他学科一样,化学有大量可用于研究趋势和相关性的科学文献。一个值得注意的例子是对人类基因组计划提供的大量信息进行数据挖掘,以识别基因组数据的趋势。
计算和实验之间的差距。虽然计算方法的目标是帮助实现实验的目标,但前者的结果并不总是可以迁移到后者。例如,在使用机器学习寻找候选分子时,我们必须牢记分子在其合成途径中很少是独一无二的,而且通常很难知道未经探索的化学反应是否会在实践中起作用。即便可以起作用,目标化合物的收率、纯度和分离也存在问题。计算工作和实验工作之间的差距甚至会变得更大,因为计算方法所采用的指标并不总是可以转移到后者(上面提到的 QED 只是众多例子中的一个)上,而且实验验证可能不可行; 需要更好的数据库和缺乏基准。由于整个化学空间是无限的,所以我们最希望有足够大的样本量来帮助我们进行之后的泛化。然而,目前大多数数据库都是为不同目的而设计的,它们通常使用不同的文件格式;其中一些缺乏提交的验证程序,或者它们在设计时没有考虑到人工智能的任务。此外,我们拥有的大多数数据库的化学数据范围有限 —— 它们只包含某些类型的分子。最后,大多数涉及使用人工智能进行化学预测的任务都缺乏一个基准平台,这使得许多不同研究的比较变得不可行。AlphaFold 成功的主要原因之一是它提供了上述所有内容作为蛋白质结构预测 (CASP) 竞赛的关键评估的一部分,这表明需要有组织的努力来简化和改进涉及化学预测的其他任务。