本文约5000字,建议阅读5分钟
近日,阿里达摩院发布了 2022 十大科技趋势,其中 AI for Science 占据了卷首位置。
一个世纪以来,数字科技的演进推动了人类的技术进步与产业发展。我们当前正在经历数字科技最快发展的阶段,数字化、网络化、智能化让数字世界与物理世界的融合与协同更加紧密。近日,阿里达摩院发布了 2022 十大科技趋势,其中 AI for Science 占据了卷首位置。实验科学和理论科学是数百年来科学界的两大基础范式,而人工智能正在催生新的科研范式。机器学习能够处理多维、多模态的海量数据,解决复杂场景下的科学难题,带领科学探索抵达过去无法触及的新领域。人工智能不仅将加速科研流程,还将帮助发现新的科学规律。预计未来三年,人工智能将在应用科学中得到普遍应用,在部分基础科学中开始成为科学家的生产工具。科学研究是在星辰大海里探索未知,科学发现漫长而偶然,重大突破仰赖大科学家的贡献,如牛顿、爱因斯坦、杨振宁等,尽管众多科学家不懈投入,科学发展的速度仍受到一定限制。计算机科学改变科研的路径是从下游逐渐走向上游。起初计算机主要用来做实验数据的分析与归纳。后来科学计算改变了科学实验的方式,人工智能结合高性能计算,在实验成本与难度较高的领域开始用计算机进行实验的模拟,验证科学家的假设,加速科研成果的产出,如核能实验的数字反应堆,能够降低实验成本、提高安全性、减少核废料产生。近年,人工智能被证明能做科学规律发现,不仅在应用科学领域,也能在基础科学领域发挥作用,如 DeepMind 使用人工智能来帮助证明或提出新的数学定理,辅助数学家形成对复杂数学的直觉。人工智能将成为科学家继计算机之后的新生产工具,一是带来效率的显著提升,人工智能将伴随科研的全流程,从假设、实验到归纳总结,让科学家不需要像过去一样十年寒窗才能产出科学成果,而是能在一生中保持高产;二是让科学不再依赖少数天才,人工智能对科学研究产生猜想,让科学家就其中有意义有价值的部分进行实验与证明,让更多人能够参与到科学研究中。人工智能在各科研领域中的应用节奏将有所区别,在数字化程度高、数据积累好、问题已经被清晰定义的领域中将推进地更快,如生命科学领域,AlphaFold2 运用生命科学积累的大量数据,通过基因序列预测蛋白质结构,对泛生命科学领域产生了深远的影响。另一方面,在复杂性高、变量因子多的领域,人脑难以归纳总结,机器学习可发挥优势在海量多维的数据中找到科学规律,如流体力学等。人工智能与科研深度结合仍然需要解决三个挑战,一是人机交互问题,人工智能与科学家在科研流程上的协作机制与分工需要更加明确,形成紧密的互动关系;二是人工智能的可解释性,科学家需要明确的因果关系来形成科学理论,人工智能需要更容易被理解,以建立科学与人工智能之间的信任关系;三是交叉学科人才,专业领域科学家与人工智能专家的相互理解程度低,彼此互相促进的障碍仍然较高。达摩院预测在未来的三年内,人工智能技术在应用科学中将得到普遍应用,在部分基础科学中开始成为研究工具。AI 领域内的相关专家分别就此事发表了各自的观点。中国科学院院士 北京大学、普林斯顿大学教授 鄂维南表示:数百年来,以数据驱动的开普勒范式和以第一性原理驱动的牛顿范式是科学研究的两大基本范式。当下正在蓬勃兴起的 AI for Science 有可能促使两种既有范式的深度融合,激发一场新的科学革命。《达摩院2022十大科技趋势》将AI for Science列为重要趋势,无疑是看到了人工智能和传统科研结合带来的巨大潜能。我希望它能帮助推动更多科研工作者投身其中,加速这场科学革命的进程。AI for Science 带来的不仅仅是几个点上的突破,而是科研方法的全面改变。要适应这样一个新的环境,科学家们需要更深入地了解 AI,才有可能用好 AI。企业积累了大量AI研发能力和资源。它们不仅可以提供学界所急缺的计算资源,还能够帮助打造基础科研工具。无疑,学界和业界需要更多协作,秉持开源开放的精神,消除门户之见,打造 AI for Science 的科研共同体。达摩院十大科技趋势或许就是这种努力之一。我期待达摩院牵头的这种努力,能够加快信息科学和传统科学的深度融合。也期待 AI for Science 不只是一个新的浪潮,而是一个全新的科学时代。我认为人工智能一定会成为科学家的工具,但我希望还不要局限于此。我们正处于一个数据密集型计算范式的年代。我们有海量的数据,科学家们可以从海量的这个数据里面,应用自己方法论,进行科学探索。而运用方法论来进行科学发现和科学探索,一定是基于人工智能,所以说人工智能一定会成为科学家的工具。为什么我又说不希望仅只局限于此呢?工具背后是人工智能的一种可计算思维的一种渗透,所以我希望科学家在使用工具的过程里,能够形成以一个以设计构造、计算为核心的计算思维。比如说像 AlphaFold,这个伟大研究成果的产生,不仅仅只是利用了深度神经网络作为工具,而是不同学科的科学家汇聚在一起。它先去设计了一条明确的可计算的思路,来解决从氨基酸序列到蛋白质三维空间结构预测。所以说,我们需要形成计算思维来进行科学探索,同时恰到好处地应用人工智能这个工具,就能开创科学更加崭新的未来。AI for Science是一个充满着光辉前途的人工智能的趋势。目前 AI for Science 这个方向已经有可圈点的突破,但主要还是比较点状的一些结果,包括分子生物学、量子力学等,还没有形成大面积的成果,仍然有很大的突破空间。用 AI 去助力科研是基于两点,一个是基于数据、一个是基于计算。因为我们要在数据和算力的基础上形成AI能力。所以如果这个学科有比较好的数据、比较多的数据、比较丰富的数据,以及它的问题是需要大规模计算相关的一些问题,可能是比较快地容易取得突破的地方。比如像分子生物学,还有天文学、地理科学、大气科学,这些都有大量数据,问题又非常复杂,需要强大的计算。这里可能能够利用一些AI的能力,能够更快取得一些突破。从本质上来讲,AI for Science 和 AI for Industry 差别不大,AI 也是作为推动领域发展的一个工具。只是这个领域有点不一样,它的门槛比较高,因为是科学家要做的事情,不是一个普通人、一般的技术工作人可以做的事情。但是从本质上来讲,也是这个领域因为有了数据,可以设计算法去挖掘数据中的“玄机”,去解决这个领域的问题。今天人工智能技术又往前走了一大步,可以让计算助力科研走向智能助力科研,智能会使科学研究的方法带来一些变化。其带来的效果应该和产业界的是可以类比的,就是能够让科研的效率提升,成果的产出能够更多,甚至能从手工作坊的方式变成批量生产。当然这个很不容易,但是可能有这样的一个趋势。对于科学研究而言,从这种小概率事件有可能能够变成一个概率比较大一点的事件,变得更科学,而不是随机性特别大的,能够有更多确定性。这是 AI for Science 的意义所在,当然 still a long way to go。我们AI在其他领域已经磨合了近十年的时间,在 Science 是刚刚开始,有一些点状的技术,不外乎两件事情。第一件是 AI 专家要去了解科学问题,这个门槛比较高。第二件是科学家要去了解 AI 的原理,知道它什么是能的,什么是不能的,它有什么样的优势。这个倒不是说一定我们只用已有的 AI 的能力去解决这个科研问题,也有可能是在 AI 专家和科学家协作的过程当中去研发出更好的 AI 的能力,去解决对应的科学问题,这个跟 AI for Industry 也是一样的进程。我们很多的 AI 技术也是在解决对应的产业的问题过程当中产生出来的。所以两方面要合在一起去解问题。只是它有不同的地方,科学的门槛本相对比较高。AI 在 forIndustry 的时候,其实是从单点的技术逐渐地走向了平台化,AI for Science 的未来,我想也会逐步地走向平台化。这个时候就是 AI 专家结合某个领域、某个学科,甚至是某个学科的某一类问题和科学家们一起去建造一个科研的平台。这个时候科学家们可能有更大的自由度、更强大的工具,能够更批量地去做科学研究,实现更加丰富、更加重要的科学突破。再往下走的话,我想再借鉴一下 AI for Industry 的进程。AI for Industry 从单点技术到平台以后,再往下我判断是走向系统,或者叫进化系统或者叫协同进化系统。因为平台解决的是能够规模化地去产生能力和落地应用,系统化解决的是能够长久地、持续地、深入地解决行业的问题,产生核心价值。对于科研来讲也是,如果说每一个领域能够建造出这样一个AI系统,那么科学的发现有可能实现自动或者半自动的模式,它可以持续、持久、深入、广泛地做出一些科学的发现,这个可能是更长远的一个未来。当然,自动模式能解决的是相对简单一些的科学发现、科学论证,并不是最前沿、最尖端、最复杂的问题——这一部分是要科学家利用强大的AI系统和科学专业能力去发现、去解决。DeepMind 与合作者最近在 Nature 发表论文,AI 帮助解决了数学难题,引起很多人的关注。大家关心得不是结果,而是 AI 在数学研究中如何发挥作用。先介绍下背景,这篇文章是关于低维拓扑,里面有十几个数学量,其中关键量是通过神经网络拟合在做分析得到。作者猜测低位拓扑中存在未知的非线性关系,作者产生了很多数据并用神经网络拟合了近似函数,发现其中三个量在拟合过程中起到了很重要的作用,并且只用这三个量也拟合得非常好。通过反正做拟合实验,产生新的数据,得到新的观察模型,最终数学家利用智慧猜出了一个不等式结构,并进一步给了严格的证明。大家关心的是人机互动的过程,大量神经网络实验和两个数学家之间多轮的互动,Nature 描述了互动过程。自古以来,比如开普勒和其他应用科学家反复地做实验观察,从中寻找规律,现在AI算法和AI专家扮演了这个角色。这次创新主要用了神经网络的技术,包括多元非线性函数进行递进的技术和黑盒解释的技术。总结来说,这个成功案例会激发纯数学家和AI合作证明一些新的猜想或者发现新结构。延伸到 AI for Science,我的看法是,AI 的确可以加速科学实验。除了做计算机模拟之外,AI 还可以告诉大家实验的方向。在最近的天体物理中,AI优化太空望远镜的指向,同时搜集更多更有趣的数据,有点像自动驾驶,用AI做自动驾驶望远镜,加快规律的发现速度。其次,AI 推动人机结合。当然说起来简单,具体操作要复杂得多,科学家和 AI 专家必须紧密互动,比如数据生成、作图、构建神经网络和训练、利用神经网络进行结果验证等解决问题高度相关。最后非常重要的一点是发展可解释的 AI 工具。AI 产生的结论需要易于理解、能够溯源,这样才能建立与科学之间的桥梁,获得科学家的信任。我的工作主要是做自然语言的理解、对话,包括 AI 模型。AI for Science 是一个很新的方向,我们团队在这方面的工作起步不久,我们基于预训练模型体系 AliceMind,利用有限的监督数据,再结合强化学习,目前能够证明近 400 项定理。面向工业的人工智能和面向科学的人工智能一些不同。前者主要是解决工业中实际问题,根据真实世界中的数据寻找模式(pattern)。对于面向科学的人工智能,目的不仅要找到数据中的模式,而且要找到产生这些的模式的底层规律,来解释不同的现象。面向科学研究的人工智能,常见的预测方式比如从数据到标签的映射,给定疾病图片预测疾病等传统的分类学习的方法能够被使用,但模型更注重与对于数学问题、物理问题等底层的理解,对于可解释性的洞察,以及对于研究问题中的数据更合适的表述分析。我们需要在源数据的基础上寻找更好的表示,对于该领域的问题有更好的理解。目前的 AI 主要应用于工业场景,基于大量数据。如果 AI 在科研中也需要大量的科研数据,比如对于生物的蛋白质或者某些特定领域,AI 也许在这里可以发挥比较大的作用。但对于特定领域的知识表述和应用,涉及到符号逻辑,包括知识图谱,甚至人的经验、文本知识,如何对于领域知识进行表示和应用,目前AI在这方面工作相对比较有限。另一个问题是跨团队合作。目前模式是物理学家、数学家提出问题和需求,由 AI 专家来辅助解决。更有效的工作是双方往前各迈一步,AI 专家深入地了解相关学科知识,这样对于利用计算机建模有更好的方式。物理学家,数学家,化学家和生物学家如果能够更好地了解计算机和 AI 的趋势,也会给出非常重要的建议,对于 AI 模型的建模和整个 AI 系统的建设会有非常好的帮助。在未来,人工智能将催生科研新范式。人工智能将成为科研领域的发展高效催化剂。这也需要各类跨学科领域团队的不断合作创新。达摩院所公布的《2022 十大科技趋势》除了这里介绍的 AI for Science,还包括大小模型协同进化、硅光芯片、绿色能源 AI、柔性感知机器人、高精度医疗导航、全域隐私计算、星地计算、云网端融合、XR 互联网领域。
阿里达摩院《2022 十大科技趋势》完整版可点击下方链接获取。https://pan.baidu.com/s/1Va_8mCI6L9GvNaNWLuf56w编辑:王菁