DeepMind最新研究登Nature,揭示AI时代科研新范式,开拓未知领域,带来全新挑战

新智元

共 11757字,需浏览 24分钟

 ·

2023-08-11 06:29



  新智元报道  

编辑:桃子 润
【新智元导读】AI技术加持之下,科学研究的效率被大大加强,呈现出了全新的机会和发展空间,但也要面对新的挑战和困难。

AI与各个科学领域结合后,正在发生着一场充满潜力和挑战的科技革命。

通过探索理论、设计实验、分析数据,人工智能将为我们所熟知的科学发现提供超级动力。

8月2日,谷歌团队研究人员在Nature上发表了一项研究——人工智能时代的科学发现,总结了AI在科学发现中的应用和进展。

论文地址:https://www.nature.com/articles/s41586-023-06221-2

如何收集、转换和理解数据为形成科学见解和理论奠定了基础。

2010年代初兴起的深度学习,极大地扩展了这些科学发现过程的范围和雄心。

人工智能越来越多地应用于各个科学学科,以整合海量数据集、完善测量、指导实验、探索与数据相匹配的理论空间,以及提供与科学工作流程相结合的可操作的可靠模型,从而实现自主发现。

数据收集和分析是科学理解和发现的基础,也是科学的两大核心目标、定量方法和新兴技术。

20世纪50年代,数字化的引入为计算机在科学研究中的普遍应用铺平了道路。

自2010年代以来,数据科学的兴起使AI能够从大型数据集中识别出与科学相关的模式,从而提供有价值的指导。

尽管科学实践和过程在科学研究的各个阶段各不相同,但人工智能算法的发展跨越了传统上孤立的学科。

这种算法可以增强科学研究的设计和执行,正在成为研究人员不可或缺的工具。

科学发现是一个多方面的过程,涉及几个相互关联的阶段,包括假设形成、实验设计、数据采集和分析

近来,AI在科学方面最新的进展,就包括解开50年前的蛋白质折叠问题,以及人工智能驱动的数百万粒子的分子系统模拟,证明了人工智能解决具有挑战性的科学问题的潜力。

与任何新技术一样,AI4Science 的成功取决于,我们是否有能力将其融入日常实践并了解其潜力和局限性。

在科学发现过程中,广泛采用人工智能的障碍包括发现过程每个阶段特有的内部和外部因素,以及对方法、理论、软件和硬件的实用性和潜在滥用的担忧。

论文中,研究人员将探讨人工智能科学的发展并解决关键问。

AI辅助科学研究数据采集与管理

实验平台收集的数据集规模和复杂程度不断增加,导致科学研究越来越依赖实时处理和高性能计算,以选择性地存储和分析高速生成的数据。

数据选择

一个典型的粒子碰撞实验每秒产生超过100 TB的数据。这类科学实验正在挑战现有数据传输和存储技术的极限。

在这些物理实验中,99.99%以上的原始仪器数据都是背景事件,必须实时检测并丢弃,以管理数据速率。

为了识别罕见事件,便于未来的科学研究,深度学习方法用「搜索离群信号」的算法取代了预先编程的硬件事件触发器,以检测压缩过程中可能遗漏的意外或罕见现象。

背景过程可使用深度自动编码器生成模型。

自动编码器会为以前未见过的、不属于背景分布的信号(罕见事件)返回较高的损失值(异常得分)。与有监督异常检测不同,无监督异常检测不需要标注,已广泛应用于物理学、神经科学、地球科学、海洋学和天文学。

数据标注

训练有监督模型需要带有标注的数据集,这些标注可提供有监督信息,以指导模型训练,并根据输入估计目标变量的函数或条件分布。

在生物学领域,为新表征的分子分配功能和结构标签的技术对于监督模型的下游训练至关重要,因为实验生成标签非常困难。

例如,尽管下一代测序技术不断发展,但只有不到1%的测序蛋白质标注了生物学功能。

另一种数据标注策略,是利用在人工标注数据上训练的智能体模型来标注未标注的样本,并利用这些预测的伪标签来监督下游预测模型。

相比之下,标签传播则是通过基于特征嵌入构建的相似性图将标签扩散到未标记的样本中。

除了自动标注外,主动学习还能确定需要人工标注的信息量最大的数据点或需要进行的信息量最大的实验。

通过这种方法,可以用较少的专家提供的标签来训练模型。数据标注的另一种策略是利用领域知识制定标注规则。

数据生成

随着训练数据集的质量、多样性和规模的提高,深度学习的性能也在不断改善。

创建更好模型的一个有效方法是,通过自动数据增强和深度生成模型,生成额外的合成数据点来增强训练数据集。

除了人工设计此类数据扩增外,强化学习方法还能发现一种自动数据扩增策略,这种策略既灵活又与下游模型无关。

深度生成模型,包括变异自动编码器、生成对抗网络、归一化流和扩散模型,可以学习底层数据分布,并从优化的分布中采样训练点。

生成式对抗网络已被证明可用于科学图像,因为它们可以合成许多领域的逼真图像。

概率编程是生成模型中的一种新兴技术,并将数据生成模型表达为计算机程序。

学习科学数据有意义的表示

深度学习可以提取不同抽象程度的科学数据的有意义表征,并对其进行优化以指导研究,通常是通过端到端学习。

高质量的表征应尽可能多地保留数据信息,同时保持简单易懂。

有科学意义的表征应结构紧凑、有鉴别性、能区分潜在的变异因素,并能编码可在多项任务中通用的潜在机制。

在此,研究人员将介绍满足这些要求的3种新兴策略:几何先验、自监督学习、语言建模。

几何先验

由于几何和结构在科学领域发挥着核心作用,因此在学习表征中整合「几何先验」已被证明是有效的。

对称是几何学中一个被广泛研究的概念。它可以用不变性和等差性来描述来数学函数的行为,以表示神经特征编码器在一组变换下的行为。

在科学图像分析中,物体在图像中平移时不会发生变化,这意味着图像分割掩码是平移等变的,因为当输入像素平移时,它们会发生等效变化。

通过增加训练样本,将对称性纳入模型可使AI在有限的标注数据中受益,并可改善对与模型训练过程中遇到的输入明显不同的输入的外推预测。

几何深度学习

图神经网络,已成为对具有潜在几何和关系结构的数据集进行深度学习的主要方法。

从广义上讲,几何深度学习包括,发现关系模式 ,并通过神经信息传递算法,以图形和变换组的形式编码的局部信息。

学习科学数据有意义的表征

自监督学习

当只有少数标记样本可用于模型训练,或当为特定任务标记数据成本过高时,监督学习可能是不够的。

在这种情况下,利用标记和未标记数据可以提高模型性能和学习能力。

自监督学习是一种技术,让模型能够在不依赖显式标签的情况下学习数据集的一般特征。

自监督学习是一个重要的预处理步骤,它可以在大型无标签数据集中学习可转移的特征,然后在小型有标签数据集中微调模型,以执行下游任务。

这种对科学领域有广泛的了解的预训练模型,是通用预测器,可适用于各种任务,从而提高标注效率,超越纯监督方法。

语言建模

掩码语言建模是一种流行的方法,用于自监督学习自然语言和生物序列。

随着自然语言和生物序列处理的不断发展,它们为彼此的发展提供了信息。

在训练过程中,目标是预测序列中的下一个token,而在基于掩码的训练 中,自监督任务是使用双向序列上下文恢复序列中的掩码token。

蛋白质语言模型可以,编码氨基酸序列以捕获结构和功能特性,并评估病毒变体的进化适应性。

Transformer架构

Transformers是一种神经结构模型,可以通过灵活模拟任意token对之间的相互作用,来处理token序列,超越了早期使用递归神经网络进行序列建模的努力。

虽然Transformers统一了图神经网络和语言模型,但Transformers的运行时间和内存占用可能与序列长度成二次方关系,从而导致远程建模,和线性化注意机制在效率方面面临挑战。

因此,无监督或自监督生成式预训练变换器被广泛使用,随后进行参数高效微调。

神经算子

标准神经网络模型可能无法满足科学应用的需要,因为它们假定数据离散度是固定的。

这种方法不适用于以不同分辨率,和网格收集的许多科学数据集。

此外,数据通常是从连续域中的潜在物理现象中采样的,

神经算子通过学习函数空间之间的映射来学习,不受离散化影响的表征。

神经算子保证离散化不变,这意味着它们可以处理任何离散化的输入,并在网格细化时收敛到一个极限。

神经算子一旦训练完成,就可以在任何分辨率下进行评估,无需重新训练。相比之下,当部署过程中的数据分辨率与模型训练时的数据分辨率发生变化时,标准神经网络的性能就会下降。

基于人工智能的科学假设生成

可检验的假设是科学发现的核心。

科学假设的黑盒预测器

为科学探究确定有希望的假设,需要有效地检查许多候选方案,并选择那些可以最大限度地提高下游模拟和实验产量的假设。

在药物发现中,高通量筛选可以评估数千到数百万个分子,算法可以优先考虑实验研究哪些分子。模型可以被训练来预测实验的效用,例如相关的分子特性,或符合观察结果的符号公式。

然而,对于许多分子来说,这些预测因子的实验事实数据可能不可用。

因此,弱监督学习方法可以用来训练这些模型,其中嘈杂、有限或不精确的监督被用作训练信号。

这些方法可以经济有效地替代人类专家的标注、昂贵的硅学计算或更高保真的实验。

人工智能引导的科学假设生成

在高保真模拟上训练的AI方法已被用于高效筛选大型分子库。

为了进一步提高这些过程的效率,AI选择的候选方案可以被送到中等或低吞吐量实验中,以便使用实验反馈对候选物进行持续细化。

结果可以使用主动学习和贝叶斯优化反馈到AI模型中,使算法能够改进其预测,并专注于最有前途的候选方案。

当假设涉及分子等复杂对象时,人工智能方法就变得非常有价值。

例如,在蛋白质折叠方面,AlphaFold2可以根据氨基酸序列预测蛋白质的三维原子坐标,其精确度甚至可以达到原子级别,即使蛋白质的结构与训练数据集中的任何蛋白质都不同。

这一突破促进了各种人工智能驱动的蛋白质折叠方法的发展,如RoseTTAFold106。

除了正向问题,人工智能方法也越来越多地用于逆向问题,旨在了解产生一组观测数据的因果因素。

逆向问题,如逆向折叠或固定骨架设计,可以使用在数百万个蛋白质结构上训练过的黑盒预测器,根据蛋白质骨架三维原子坐标预测氨基酸序列。

然而,此类黑盒人工智能预测器需要大量训练数据集,尽管减少了对现有科学知识的依赖,但可解释性有限。

导航组合假设空间

尽管对所有与数据相匹配的假设进行采样是一件令人生畏的事情,但一个可以管理的目标是寻找一个好的假设,这可以表述为一个优化问题。

与依赖人工设计规则的传统方法相比,人工智能策略可用于估算每次搜索的回报,并优先选择价值较高的搜索方向。

通常采用强化学习算法训练的智能体来学习策略。

该智能体学会在搜索空间中采取使奖励信号最大化的行动,奖励信号可定义为反映所生成假设的质量或其他相关标准。

为了解决优化问题,可以使用进化算法来解决符号回归任务。该算法生成随机符号定律作为初始解决方案集。

在每一代中,候选解决方案会有轻微变化。

算法会检查任何修改所产生的符号定律是否比之前的解决方案更适合观测结果,并将最好的解决方案保留到下一代。

不过,强化学习方法正逐渐取代这一标准策略。

强化学习利用神经网络,通过添加预定义词汇表中的数学符号,并利用所学策略决定下一步添加哪个符号,从而依次生成数学表达式。

数学公式表示为一棵解析树。学习策略将解析树作为输入,以决定扩展哪个叶节点和添加哪个符号。

使用神经网络解决数学问题的另一种方法是,将数学公式转化为二进制符号序列。

然后,神经网络策略可以按概率顺序每次增加一个二进制字符。

通过设计一个奖励来衡量反驳猜想的能力,这种方法可以在没有数学问题的先验知识的情况下,找到对数学猜想的反驳方法。

组合优化也适用于发现具有理想药物性质的分子等任务,其中分子设计中的每一步,都是一个离散的决策过程。

在这个过程中,部分生成的分子图被给出作为学习策略的输入,对在哪里添加新原子以及在分子中的选定位置添加哪个原子做出离散的选择。

通过迭代执行这个过程,该策略可以生成一系列可能的分子结构,根据它们对目标属性的适应性进行评估。

AI智能体学习的策略能预见一些行动,这些行动最初似乎不合常规,但事实证明是有效的。

例如,在数学中,监督模型可以识别数学对象之间的模式和关系,并帮助指导直觉并提出猜想。

这些分析指向了以前未知的模式,甚至是世界的新模型。

然而,强化学习方法可能无法在模型训练期间很好地泛化到看不见的数据,因为一旦智能体找到一系列运行良好的动作,它可能会陷入局部最优。

为了提高泛化,需要一些探索策略来收集更广泛的搜索轨迹,这些轨迹可以帮助智能体在新的和修改的设置中表现得更好。

优化可微分假设空间

科学假设通常采用离散对象的形式,例如物理学中的符号公式或制药和材料科学中的化合物。

尽管组合优化技术在其中一些问题上取得了成功,但可微空间也可以用于优化,因为它适合基于梯度的方法,可以有效地找到局部最优。

为了能够使用基于梯度的优化方法,有两种方法经常被使用。

第一种是使用VAE等模型,将离散的候选假设映射到潜在可变空间中的点。

第二种方法是将离散假设松弛为可在可微分空间中优化的可微分对象。

这种松弛可以采取不同的形式,例如用连续变量替换离散变量,或使用原始约束条件的软版本。

物理学中的符号回归应用使用语法VAE。这些模型使用上下文无关语法将离散符号表达式表示为解析树,并将解析树映射到可微分的潜在空间中。

然后采用贝叶斯优化法优化符号定律的潜在空间,同时确保表达式在语法上有效。

在许多科学学科中,假设空间可能远远大于实验所能考察的范围。

因此,我们迫切需要一种方法,在这些基本未开发的区域中高效搜索并识别高质量的候选解决方案。

AI驱动的实验与模拟

通过实验评估科学假设对于科学发现至关重要。

然而,实验室实验的成本可能过于高昂且不切实际。

计算机模拟作为一种有前景的替代方案已经出现,对比实验它具有更高效灵活的优势。

虽然模拟依赖于手工制定的参数和开创式的方法来模拟真实场景,但与物理实验相比,还需要在准确性和速度之间进行权衡,需要理解其中的基本机制。

然而,随着深度学习的出现,通过识别和优化假设以进行高效测试,并赋予计算机模拟联结观察结果与假设的能力,这些挑战正在得到解决。

高效评估科学假设

AI系统提供了实验设计和优化工具,可以增强传统的科学方法,减少所需实验的数量并节省资源。

具体而言,AI系统可以协助实验测试的两个重要步骤:计划和引导。

在传统方法中,这些步骤往往需要反复试验,这可能是低效的、昂贵的,甚至有时可能危及生命。

AI计划提供了一种系统化的方法来设计实验,优化其效率,并探索未知领域。

同时,AI引导将实验过程导向到高产出的假设,使系统能够从先前的观察中学习并调整实验过程。

这些AI方法可以基于模拟和先验知识来进行模型建立,也可以基于纯机器学习算法进行模型构建。

AI系统可以通过优化资源使用和减少不必要的调查来协助实验计划。与假设搜索不同,实验计划涉及到科学实验设计中涉及的程序和步骤。

一个例子是化学合成计划。化学合成计划涉及到找到一系列步骤,通过这些步骤可以将目标化合物从现有化合物合成出来。

AI系统可以设计合成路径以得到所需的化合物,从而减少人工干预的需求。

主动学习也被用于材料发现和合成。主动学习涉及与实验反馈进行迭代交互,以改进假设。材料合成是一个复杂而资源密集型的过程,需要对高维参数空间进行高效的探索。

主动学习利用不确定性估计来探索参数空间,并尽可能少地减少不确定性。

在进行实验过程中,决策常常需要实时调整。然而,当只依靠人类经验和直觉时,这个过程可能难以进行或者容易出错。强化学习提供了一种替代方法,可以持续地对不断变化的环境做出反应,并最大化实验的安全和保证成功率。

例如,在磁控托卡马克等离子体的实验中,强化学习方法通过与托卡马克模拟器进行交互来优化控制过程的策略(如下图)。

在另一项研究中,一个强化学习代理根据实时反馈(如风速和太阳高度)来控制平流层气球,并寻找有利的风流用于导航。

在量子物理学中,实验设计需要根据未来复杂实验的最佳选择进行动态调整,而强化学习方法可以通过迭代地设计实验并从中获得反馈来克服这个问题。

例如,强化学习算法已经被用于优化量子系统的测量和控制,从而提高实验效率和准确性。

利用模拟从假设中推导观测量

计算机模拟是一种强大的工具,可以从假设中推导观测量,实现对那些不直接可测试的假设进行评估。

然而,现有的模拟技术在很大程度上依赖于人类对所研究系统底层机制的理解和知识,这可能使得模拟不够优化和高效。

AI系统可以通过更准确高效地学习来增强计算机模拟,更好地拟合复杂系统的关键参数,解决控制复杂系统的微分方程,并对复杂系统的状态进行建模。

科学家通常通过创建涉及参数化形式的模型来研究复杂系统,这需要专业领域的知识来识别参数的初始符号表达式。

比如,分子力场是可解释的,但在表示各种函数方面能力有限,并且需要强大的归纳偏见或科学知识来生成。

为了提高分子模拟的准确性,已经开发了一种基于AI的神经势能,它适合昂贵但准确的量子力学数据,取代传统的力场。

此外,不确定性量化已被用于在高维自由能面中定位能量障碍,从而提高分子动力学的效率169(下图)。

对于粗粒化分子动力学,AI模型可以通过确定系统需要从学习的隐藏复杂结构中粗粒化的程度,来减少大系统的计算成本。

在量子物理学中,由于其灵活性和准确拟合数据的能力,神经网络已经取代了手动估计的波函数或密度泛函的符号形式。

微分方程对于模拟空间和时间中复杂系统的动态是至关重要的。与数值代数求解器相比,基于AI的神经求解器更加无缝地融合数据和物理。

这些神经求解器通过将神经网络基于领域知识进行建模,将物理与深度学习的灵活性相结合(下图)。

AI方法已被应用于各个领域的微分方程求解,包括计算流体动力学,预测玻璃体系的结构,解决难解化学动力学问题,以及解决Eikonal方程以表征地震波的传播时间。

在动力学建模中,神经常微分方程可以对连续时间进行建模。神经网络可以通过物理信息损失对Navier-Stokes方程的解在时空域中进行参数化。

然而,标准的卷积神经网络对于解的细粒度特征建模能力有限。这个问题可以通过学习用神经网络对函数之间的映射进行建模的运算符来解决。

此外,求解器必须能够适应不同的域和边界条件,这可以通过将神经微分方程与图神经网络相结合来通过图划分实现。

统计建模是一种强大的工具,可以通过对复杂系统中状态的分布进行建模来提供对复杂系统的全面定量描述。

归一化流可以使用一系列可逆神经网络将任何复杂分布映射到先验分布(例如简单的高斯分布),并进行反向映射。

虽然计算成本较高(通常需要数百或数千个神经层),但归一化流提供了精确的密度函数,从而实现了采样和训练。

与传统模拟不同,归一化流可以通过直接从先验分布中进行采样并应用神经网络来生成平衡状态,这样计算成本就是固定的。

这增强了格点场和规范理论中的采样,改进了马尔可夫链蒙特卡洛方法,否则可能由于模态混合而无法收敛。

重大挑战

为了利用科学数据,模型必须建立在人类专业知识之上,再利用上模拟来加强模型的表现。

这种整合为科学发现开辟了新的契机。

然而,为了进一步提升AI在科学领域的影响,需要在理论、方法、软件和硬件基础设施方面取得重大进展。

跨学科的合作对于实现通过AI推进科学的全面和实用方法至关重要。

实践考虑

由于测量技术的限制会产生不完整的数据集、有偏差或相互冲突的读数,并且由于隐私和安全问题的限制,导致了的数据可访问性不足,科学数据集通常不太适合用来做AI分析。

需要标准化和透明的格式来减轻数据处理的工作量。

模型卡片和数据表是一些努力的例子,用于记录科学数据集和模型的操作特性。

此外,联邦学习和加密算法可以用于防止将具有高商业价值的敏感数据公开发布到公共领域。

利用开放的科学文献,自然语言处理和知识图谱技术可以促进文献挖掘,有助于材料发现,化学合成和治疗科学的进步。

深度学习的使用对于人类参与的AI驱动设计、发现和评估提出了复杂的挑战。

为了自动化科学工作流程,优化大规模模拟代码和操作仪器,自主机器人控制可以利用预测并在高通量合成和测试线上进行实验,创建自主实验室。

在材料探索中早期应用生成模型表明,可以识别出数百万种,具有期望性能和功能的可能材料,并对其可合成性进行评估。

例如,King等人将逻辑AI和机器人技术结合起来,自主生成关于酵母的功能基因组学假设,并使用实验室自动化来实验性地测试这些假设。

在化学合成中,AI优化候选合成路径,然后机器人根据预测的合成路径引导化学反应。

实施AI系统涉及复杂的软件和硬件工程,需要一系列相互依赖的步骤,从数据筛选和处理到算法实现和用户应用界面设计。

实现中的微小差异可能导致性能上的显著变化,并影响将AI模型整合到科学实践中的成功。

因此,需要考虑数据和模型的标准化。由于模型训练的随机性、模型参数的变化和不断变化的训练数据集,AI方法可能存在可重复性问题,这些问题既与数据相关又与任务相关。

标准化的基准测试和实验设计可以减轻这些问题。改善可重复性的另一个方向是通过发布开放模型、数据集和教育项目的开源倡议。

算法创新

为了对科学理解做出贡献或自主地获取科学理解,需要进行算法创新,建立一个在整个科学过程中使用最优算法的基础生态系统。

超出分布范围的泛化问题是AI研究的前沿。

在特定范围的数据上训练的神经网络可能会发现不适用于不同范围的数据的规律,因为后者的基础分布发生了偏移。

虽然许多科学定律并不是普遍适用的,但一般来说也会具有广泛的适用性。而与最先进的AI相比,人类大脑可以更好、更快地适应修改后的环境。

有一个很有意思的假设是这么说的,人类不仅根据自己观察到的内容建立的统计模型,而且还建立了一个因果模型。

这是一个由所有可能的干预(例如,不同的初始状态、不同的代理的行为或不同的情况)来进行索引的统计模型集合。

将因果性纳入AI仍然是一个尚待研究的领域,还有很多工作要做。

自监督学习等技术在科学问题上具有巨大潜力,因为它们可以利用大量未标记的数据,并将里面包含的知识转移给低数据领域。

然而,目前的迁移学习方案可能是特定情况下的临时解决方案,缺乏理论指导,并且容易受到基础分布的变化的影响。

虽然一些初步尝试已经解决了这一挑战,但还需要进一步探索,以系统地衡量跨领域的可迁移性,并防止负面迁移。

此外,为了解决科学家关心的困难,AI方法的开发和评估必须在现实世界的情况下进行,例如在药物设计中可能实现的合成路径,并在将其转移到实际应用之前包括经过良好校准的不确定性估计来评估模型的可靠性。

科学数据是多模态的,包括图像(例如宇宙学中的黑洞图像)、自然语言(例如科学文献)、时间序列(例如材料的热黄变)、序列(例如生物序列)、图(例如复杂系统)和结构(例如3D蛋白-配体构象)。

AI方法通常作为黑盒操作,意味着用户无法完全理解输出是如何生成的,以及在生成输出时哪些输入是关键的。

黑盒模型可能会降低用户对预测的信任,并且在必须在实现之前理解模型输出的领域中应用有限,例如在人类太空探索中,在预测指导政策的领域中,比如在气候科学中。

尽管有大量的解释技术,透明的深度学习模型仍然难以实现。

然而,人类大脑能够综合高层次的解释,即使不完美,也能说服其他人类。

这提供了希望,通过在类似高层次抽象的现象模拟下,未来的AI模型将提供至少与人类大脑提供的一样有价值的解释和理解。

这也表明,研究高级认知可能会激发未来的深度学习模型,将当前的深度学习能力与操纵可言述抽象、因果推理和超出分布泛化的能力结合起来。

AI对于科学研究事业的影响

展望未来,对AI专业知识的需求将受到两种力量的影响。

首先,一些领域马上就能能从AI应用中受益,比如自主实验室。

其次,智能工具能够提升最先进技术水平,并创造新机会,比如研究在实验中无法观测到的生物、化学或物理过程的长度和时间尺度相关的研究。

基于这两个力量,我们预计研究团队的组成将发生变化,包括AI专家、软件和硬件工程师,以及涉及各级政府、教育机构和公司的新形式合作。

最近最先进的深度学习模型不断增长10,234。这些模型由数百万甚至数十亿个参数组成,并且每年的规模增长了十倍。

训练这些模型涉及通过复杂参数化的数学运算传递数据,参数更新以将模型输出推向所需的值。

然而,计算和数据要求以计算这些更新是巨大的,导致了巨大的能源消耗和高昂的计算成本。

因此,大型科技公司已经大量投资于计算基础设施和云服务,推动了规模和效率的极限。

虽然盈利和非学术组织拥有大规模计算基础设施,但高等教育机构在跨学科整合方面可能更为优势。

此外,学术机构往往拥有独特的历史数据库和测量技术,这些可能在其他地方不存在,但对于AI4Science是必要的。

这些互补的资产促进了新型产学合作模式,这可以影响所选择的研究问题。

随着AI系统逼近并超越人类的性能,将其作为例行实验室工作的替代品变得可行。

这种方法使研究人员能够从实验数据中开发预测模型,并选择实验来改进这些模型,而无需手动执行繁重和重复的任务。

为了支持这种范式转变,教育计划正在涌现,培训科学家在设计、实施和应用实验室自动化和AI在科学研究中。这些计划帮助科学家了解何时使用AI是合适的,并防止对AI分析的错误解释。

结论

AI系统可以为科学理解做出贡献,使我们能够研究那些以其他方式无法可视化或探测的过程和对象,并通过从数据中构建模型并结合模拟和可扩展计算,来系统地激发创意。

为了实现这一潜力,必须通过负责任和深思熟虑的技术部署来解决使用AI所带来的安全问题。

在科学研究中负责任地使用AI,科学研究需要确定AI系统的不确定性、误差和效用水平。

这种理解对于准确解释AI输出并确保我们不过分依赖可能存在缺陷的结果至关重要。

随着AI系统不断发展,优先考虑可靠的实施并采取适当的保障措施是最大限度降低风险和最大化收益的关键。

AI有潜力揭示以前无法触及的科学发现。


参考资料:
https://www.nature.com/articles/s41586-023-06221-2




浏览 23315
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报