新智元报道

编辑：LRS

【新智元导读】增强物理（Augmented Physics）可以将物理教科书中的静态图表转换成交互式模拟的工具，通过动态图示、双向绑定和参数可视化等增强策略，为学生提供了一个更直观、更个性化的物理学习体验，能够帮助学生更好地理解和掌握物理概念。

在上物理课的时候，大家应该都有过那种「图太抽象了」的体会吧，需要靠空间想象力才能感受到出题人的想法。

而在电子教学时代，物理图可以是动态、可交互的，有助于更深入地理解复杂原理，能够比教科书或视频提供更丰富、更难忘的学习体验，也可以让学生更积极参与到复杂概念的实验中，

但是创建交互式模拟既耗时又需要大量的编程工作，所以大部分教学场景只能用已经制作好的模拟图，有时无法完全满足学生对学习材料的特定需求，甚至切换教科书和外部交互视频的过程还会分散学生注意力。

最近，卡尔加里大学、科罗拉多大学博尔德分校及Adobe的研究人员提出了一个全新的方法增强物理（Augmented Physics），通过从静态教科书图表中提取和增强内容来创建交互式物理模拟；利用「Segment-Anything」和多模态LLM等先进的计算机视觉技术，可以半自动地从教科书页面中提取图表，并基于提取的内容生成交互式模拟。

论文链接：https://arxiv.org/pdf/2405.18614

简单来说，这种增强实验的功能就像是给教科书里的静态图像增添了生命力，学生们不再只是被动地阅读和观看图像，而是能够亲手操作这些图像中的元素，进行实验。

比如，学生可以把一个物体在虚拟的模拟环境中移动到透镜旁边，亲眼看到图像是如何变化的。在电路的学习中，也可以调整电路中的电压和电阻，实时看到电流的变化，这样的互动方式使得学习过程更加直观和有趣。

该系统可以支持各种类型的模拟，如牛顿运动、光学、电路和循环动画，并通过简单的创作过程，用户可以选择图表中的特定对象进行分割，操纵分割对象，并调整参数值以动态与模拟结果互动。

体验感最好的是，交互式视觉输出直接通过基于网络的界面无缝叠加到教科书PDF上，学生可以很方便地学习、实验，而无需寻找外部材料。

通过与七位物理教师的引导研究，文中探索了四种关键的增强策略：增强实验、动画图表、双向绑定、参数可视化，然后通过对系统进行技术评估、可用性研究（N=12）和专家访谈（N=12）来评估系统，结果表明，该系统可以促进物理教育中更具吸引力和个性化的学习体验。

增强物理：系统设计

步骤1：导入教科书图表

用户通过网页界面导入图表，系统支持包括桌面和移动设备，用户也可以上传教科书页面的PDF文件，或者使用智能手机拍摄并上传教科书页面的照片。

步骤2：选择模拟类型

导入图表后，系统会要求用户从可用选项中选择模拟类型：运动学、光学和电路；系统还额外提供动画选项，以适用于不需要特定模拟类型的场景。

步骤3：分割图像

用户通过在图表上选择特定区域（用方框或点选）来启动分割。

例如，用户可能选择一棵树和一个透镜，从光学相关的图表中分割出这些对象。在另一个例子中，用户可以分割与牛顿运动相关的图表中的各种对象，如物体和斜坡；用户还可以分割一条线来提取路径，创建跟随线条的动画。

步骤4：为分割对象分配角色

分割完成后，用户为每个分割的对象分配一个标签，在模拟中提供特定角色；系统为每种模拟类型提供了一组可用的角色，供用户选择。

例如，在光学模拟中，用户可能将一棵树标记为要投影的物体，将透镜简单地标记为透镜，将一个点标记为焦点。

在与重力相关的情境中，分割的项目可以被分类为受重力影响的动态物体，或保持静止的静态物体，还可以使用弹簧或绳子等标签用于运动学图表；对于电路模拟，系统使用图像识别自动对对象（如电阻和电池）进行分类。

步骤5：生成和运行模拟

用户分割图像并分配角色后，系统会将分割的图像转换成具有适当物理属性的多边形，生成模拟。

系统可以精确复制滑雪者和斜坡，分别创建动态和静态物体的多边形，能够确保模拟与原始图表无缝集成，实现形状和位置的对齐；用户可以通过点击运行按钮或与渲染的多边形互动来启动模拟，观察动态的视觉输出，点击模拟对象，并选择更改参数。

步骤6：通过参数操作与模拟互动

用户可以灵活地调整模拟内的参数。根据不同的角色，不同的对象带有各种参数，如动态物体的质量、静态物体的摩擦力和弹簧的力常数。

系统可以在文本或图像中识别参数值，使用户能够操纵页面上的数值。例如，在电路模拟中，用户可以修改电阻和电池的值，动态更改模拟结果；系统自动将文本中的数值与模拟中对象的特定属性链接起来，用户可以编辑这些属性。

增强特性

动态图示（Animated Diagrams）

提供了一种创建循环动画的方法，用户可以为分割对象指定路径，然后创建模拟运动的动画。

通过分割对象并为动画定义路径，可以让光线根据角度的不同而沿着各种反射路径传播，该特性也使得用户能够直接从教科书内容中创建出有吸引力的动画，比如地球绕太阳旋转；并且与受限于可用模拟的增强实验不同，动态图示可以应用于任何图示。

双向绑定（Bi-directional Binding）

作者可以将文本中的参数值与相关的模拟实验相链接，学生能够直接在文本中调整这些值，并实时观察变化。

刚开始的时候系统会识别并高亮显示提供的图像中的所有数字供作者选择，然后作者可以从文本中选择一个特定的数值，并通过一个下拉菜单为其分配一个模拟属性，菜单中显示所有可用的属性。

上图中，用户将文本中的值绑定到压缩属性上，系统能够使用这个值来模拟场景，然后通过改变弹簧的压缩程度，为学习者提供了一种直观的方式来理解参数变化对实验结果的影响。

参数可视化（Parameter Visualization）

系统通过一个基本的时间序列图表来实现，可以让作者通过动态图表来展示选定的值，比如用户观察到一个图表，描绘摆锤在接近其平衡位置时，其角度在简谐运动中的变动。

该功能类似于一个动态的进度条，以图形的方式展示了某个变量（比如摆锤的角度）随时间的变化情况，帮助用户更直观地理解动态过程中的数值变化。

实验结果

根据技术评估结果，不同模拟组件的成功率为：运动学为64%，光学为44%，电路为40%（62%经过轻微编辑后成功），动画为66%；其中对象分割的成功率高达86%

其中对象分割的成功率高达86%，也显著促进了运动学、光学和动画组件的相对更高成功率，在运动学中，多边形生成和放置的成功率分别为72%和70%，通过适当的分割有效地转换成了可进行物理模拟的实体。

然而，由于某些特性的支持限制（6%），如旋转运动、特定物体的重力、不支持的物体如绳索，以及模拟曲面平滑性的问题，运动学模拟仍然有困难。

此外，有74%的图表仅需要进行轻微调整，如修改模拟参数才能获得准确的模拟结果，没有任何创作和修改过程的成功率为40%；尽管使用了相同的「Segment Anything」技术，线分割的成功率却较低。

电路模拟流程采用线检测方法来定位和识别导线，并结合Gemini模型来检测符号，其中线检测的成功率较低为45%，导致整体模拟成功率在进行轻微连接编辑后为62%；没有任何编辑的情况下，流程的成功率为40%，主要是因为图表中的导线重叠或交叉，而符号识别的准确度相当高为72%

参考资料：

https://arxiv.org/pdf/2405.18614

学生党狂喜，物理图表动起来！受力分析、光学、电路图等全自动交互

新智元报道

增强物理：系统设计

增强特性

实验结果