史上首次，强化学习算法控制核聚变登上Nature：DeepMind让人造太阳向前一大步-技术圈

来源：机器之心

过去三年，DeepMind 和瑞士洛桑联邦理工学院 EPFL 一直在进行一个神秘的项目：用强化学习控制核聚变反应堆内过热的等离子体，如今它已宣告成功。

DeepMind研究科学家David Pfau在论文发表后感叹道：「为了分享这个时刻我已经等了很久，这是第一次在核聚变研究设备上进行深度强化学习的演示！」

可控核聚变、强人工智能、脑机接口是人类科技发展的几个重要方向，有关它们何时可以实现，科学家们的说法永远是「还需几十年」——面临的挑战太多，手头的方法却很有限。

那么用人工智能去控制核聚变，是不是一个有前途的方向？这个问题可能需要由提出 AlphaGo 的 DeepMind 来回答了。

最近，EPFL 和 DeepMind 使用深度强化学习控制托卡马克装置等离子体的研究登上了《自然》杂志。

论文地址：https://www.nature.com/articles/s41586-021-04301-9

首先，我们来思考一个问题：为什么要用人工智能控制核聚变？

托卡马克是一种用于容纳核聚变反应的环形容器，其内部呈现出一种特殊的混乱状态。氢原子在极高的温度下被挤压在一起，产生比太阳表面还热的、旋转的、翻滚的等离子体。找到控制和限制等离子体的方法将是释放核聚变潜力的关键，而后者被认为是未来几十年清洁能源的源泉。

在这一点上，科学原理似乎是说得通的，剩下的就是工程挑战。参与该研究的瑞士等离子体中心（SPC）主任 Ambrogio Fasoli 表示：「我们需要能够加热这个装置，并保持足够长的时间，以便我们从中吸取能量。」

在同样由聚变驱动的恒星中，仅依靠引力质量就足以将氢原子拉到一起并克服它们的相反电荷。在地球上，科学家们改为使用强大的磁线圈来限制核聚变反应，将其推到所需的位置。这些线圈必须仔细控制，以防止等离子体接触容器本身：这会损坏容器壁并减慢聚变反应。

但每次研究人员想要改变等离子体的配置并尝试不同的形状，以产生更多的能量或更纯净的等离子体时，都需要大量的工程和设计工作。传统的系统是由计算机控制的，基于模型和模拟，但 Fasoli 表示传统方法「复杂且不一定能起到优化的作用」。

DeepMind 控制团队负责人 Martin Riedmiller 表示：「人工智能，特别是强化学习，特别适合解决托卡马克中控制等离子体的复杂问题。」DeepMind 在论文中详细介绍了所提的可以自主控制等离子体的 AI。

技术概览

DeepMind 提出的模型架构如下图所示，该方法具有三个阶段：

第一阶段：设计者为实验指定目标，可能伴随着随时间变化的控制目标；
第二阶段：深度 RL 算法与托卡马克模拟器交互，以找到接近最优的控制策略来满足指定目标；
第三阶段：以神经网络表示的控制策略直接在托卡马克硬件上实时运行（零样本）。

图 1：控制器设计架构（controller design architecture）的各组件示意图。

在第一阶段，实验目标由一组目标指定，这些目标包含不同的期望特性。特性范围包括位置和等离子体电流的基本稳定，以及多个时变目标的复杂组合。然后，这些目标被组合成一个奖励函数，在每个时间步骤中为状态分配一个标量质量度量。该奖励函数还惩罚控制策略，让其不会达到终端状态。至关重要的是，精心设计的奖励函数将被最低限度地指定，从而为学习算法提供最大的灵活性以达到预期的结果。

在第二阶段，高性能 RL 算法通过与环境交互来收集数据并找到控制策略，如图 1a、b 所示。该研究使用的模拟器具有足够的物理保真度来描述等离子体形状和电流的演变，同时保持足够低的计算成本来学习。具体来说，该研究基于自由边界等离子体演化（free-boundary plasma-evolution ）模型，对等离子体状态在极向场线圈电压的影响下的演化进行建模。

RL 算法使用收集到的模拟器数据来找到关于指定奖励函数的最优策略。由于演化等离子体状态的计算要求，模拟器的数据速率明显低于典型 RL 环境的数据速率。该研究通过最大后验策略优化 (MPO) 来克服数据不足问题。MPO 支持跨分布式并行流的数据收集，并以高效的方式进行学习。

在第三阶段，控制策略与相关的实验控制目标绑定到一个可执行文件中，使用量身定制的编译器（10 kHz 实时控制），最大限度地减少依赖性并消除不必要的计算。这个可执行文件是由托卡马克配置变量（TCV）控制框架加载的（图 1d）。每个实验都从标准的等离子体形成程序（plasma-formation procedures）开始，其中传统控制器维持等离子体的位置和总电流。在预定时间里，称为「handover」，控制切换到控制策略，然后启动 19 个 TCV 控制线圈，将等离子体形状和电流转换为所需的目标。训练完成后将不会进一步调整网络权值，换句话说，从模拟到硬件实现了零样本迁移。

基本功能演示

该研究在 TCV 实验中展示了所提架构在控制目标上的能力。首先他们展示了对等离子体平衡基本质量的精确控制。控制策略性能如图 2 所示。所有任务都成功执行，跟踪精度低于期望的阈值。结果表明 RL 体系架构能够在放电实验的所有相关阶段进行精确的等离子体控制。

图 2：等离子体电流、垂直稳定性、位置与形状控制的演示。

控制演示

接下来，该研究展示了所提架构为科学研究生成复杂配置的能力。结果如图 3 所示：

图 3 控制演示。

全新多域等离子体演示

最后展示了架构在探索全新等离子配置方面的强大功能。DeepMind 测试了「液滴」（droplets）的控制，这是一种在容器内部同时存在两个独立等离子体的配置。通过提出的方法，DeepMind 简单地调整了模拟切换状态，以考虑来自单轴等离子体的不同切换条件，并定义一个奖励函数以保持每个液滴组件的位置稳定，同时增加域等离子体电流。

图 4：整个 200 毫米控制窗口内对 TCV 上两个独立液滴的持续控制演示。

未来展望

总而言之，随着聚变反应堆变得越来越大，与 DeepMind 展开合作或许是最关键的。尽管物理学家已经很好地掌握了如何通过传统方法控制小型托卡马克中的等离子体，但随着科学家们尝试令核电站规模的版本可行，挑战只会更多。该领域正取得缓慢但稳定的进展。

上周，位于英国牛津郡的欧洲联合环状反应堆（JET）项目取得了突破，创造了从聚变实验中提取能量的新纪录，在 5 秒时间内产生了 59 兆焦耳的能量。与此同时，位于法国的国际热核聚变实验反应堆（ITER）国际合作项目正在建设当中，预计将于 2025 年启动并成为世界上最大的实验性聚变反应堆。

圣地亚哥能源研究中心的副研究科学家 Dmitri Orlov 表示，「托卡马克装置越复杂，性能越高，就越需要通过越来越高的可靠性和准确性来控制更多数量。」AI 控制的托卡马克装置可以通过优化，以控制热量从反应中转移到容器壁上，并防止破坏性的「等离子体不稳定性」。反应堆本身可以重新设计，以利用强化学习所提供的更严格控制。

最终，Ambrogio Fasoli 认为，与 DeepMind 的合作可以让研究人员突破界限，加速通往聚变能量的漫长旅程。人工智能将赋能我们探索人类无法探索的东西，因为我们可以使用自己不敢冒险的控制系统来达到目标。「如果我们确定自己有一个控制系统，让我们接近极限但不会超出极限，则实际上可以用来探索那些不存在的可能性。」

参考链接：

https://www.wired.com/story/deepmind-ai-nuclear-fusion/