随着人工智能的发展,我们已经看到各种知识学习新方法层\ I 0 ) { b u s S出不穷,比如 AI 口语陪练就已成为一个颇受欢迎的应用。现在,卡尔加里大学和 Adobe 研究院的一项研究又展示了一个新可能:用 AI 将物理课本上的` m @ y图表变成动画,直接演示物理机制的过程。如此一来,原本抽象的物理课程或许一下就会变得直观起来!
可以看到,只需在物理图表上绘画一个方框标记识别范围,AI 就能在分析之后将其变成可交互的动图。单摆、电路_ \ k Z、透镜、斜坡滑行…… 不管是牛顿力学、光学还是基础电路,这个 AI 统统都能搞定。该研究发布后收获赞誉无数,人们都从中看到了提升学生学习效率的潜力,甚至有人表示现在是当o 8 ; c }学生最好, b + @ k b V的时代。当然,也依然有人表示怀疑。毕竟研究是一回事,转化成实际应用又是另一回事。不管怎样,该研究不仅获得了大多数网友的赞美,也赢得了学术O ( Y界的认可,其% q m [获得了正在举行的 ACM 用户界面软件和技术研讨会(UIST 2024)的最佳论文奖。下面我们就来看看这个「增强版物理学」是怎么做到的吧。
论文标题:Augn u 9 N vmented0 – e 0 7 L w M Physics: Creating Interactive= n # k , s I 2 w and Embedded Physics Simulations from Static Textbook Diagrams
从其标题可以看到,该研究可「基于静态的教科书图表创建交互式和嵌入式的物理模拟」。为此,他们用到了 Segment-Anything 和多模态 LLM 等先进的计算机视觉技术。据介绍,该系统支持多种类型的模型,包括牛顿运动、光学、电路、循环动画。只需简单地勾画,用户就可以Z = [ a选取图C G y p表中的特定的对象进行分割,然后操作这些分割出来的对象,并调整参数值与这些模拟结果进行动态交互。此外,还可以通过一个基于网页的界面将这些交互式视觉输出无缝地叠加到教材 PDF 上,让学生无需搜R m # x S ( ]索外部材料或从头开始创建/ L O模拟,即可学习、实验和使用教材。该团队也指出,基于静态文档创建交互式解释内容的想法并不* z g – / f ! L新鲜,但这项研究有三大贡献:
提出了一种全新的图像到模拟工作流程。之前的 Cha, _ Mrak 7 F w b xgraph 和 Augmented Math 等研究关注的是文本到文本或文本到图表的工作流程,但它们不足以满足物理M 1 =图表和模拟的需求,这需要更关注图| – ` y [像的方法。
为增强物理模拟工具的设计空间做出Q m S j P U | L了贡献。为了设计这个系统,该团队执行了一个形成性启发(formative elicitatj 0 nion)研究。他们询问了 7 位物理课讲师,了解了他们增强物理教材的方式。基于这些结果,他们找到了四大关键的增强策略:增强实验、动画图表、双向绑定、参数可视化。
他们执行了三项评估,贡献了一份技术评估、一份初步可用性研究(N=12)和对物理讲师的专家采访(N5 $ j p T , L=12)。
形成性研究在设计系统之前,该团队在七位物理学讲师的帮助下进行了形成性研究。其目标是了解他们当前的物理教学方法,以确定当前教育实践中i ( s y U x & +的差距和需求,以及通过设计启发s b 5 % g ` I `来收集他们对潜在增强策略的见解,以便从教学角度指导这种工具的设计。方法该团队从当地大学社区招募了具备扎实物理教育背景的学生,其中包括 1 名本科生、5 名硕士生和 1 名博士生。这些参与者平均拥? 5 O f ) j C有 1.7 年作为助教或a D h % _ b h讲师的教学经验。研究团队首先和参与者b L y y W B ;讨论C 0 V了当前物理教学中对新型教学工具的需求,随后鼓励参与者提出新工具设计方案。他们以一本大一= i W D B B l物理教科书 ——《Physics for Scientists and Engineersx ( p M u D H Y: A Strategic Approach, 3rd Edition》为例,要求参与者从教师的视角出发,思] r 9 M m考如何将书中的静态概念图表转化为更具互动性和教学效果的增强形式。目前物理教学实践的挑战经过讨论,该团队认为目前的物理教学存在以下挑战:
视频可M ( 7 U b / _ S以展示物理现象随时间的变化,但是仅看视频,学生无法亲自进行实验操作,比如调整实验参数,观察不同条件下的结果。
学生可以通过计算机上的模拟g 1 – v Q % )工具来探索物理现象,但是这些工具没有配备教学相关的指导。
在物理教学中,有时会引入视x ` R W & r ^ 1 ~频等额外的资料来辅助教学,但这将分散学生的注意力,影响学习效$ s 6果。
启发得到的增强策略在系统开发过程中,该团队收集了参与者关于各种主题的设计建议,包括A J F \ }运动学、光学、电磁学、牛顿引力、声学和热力学。根据反馈,他们确定了四| Q Q U N种主要的增强技术类别。增强实验:让D n T p用户可以直接操作教材图表,让他们可以U \ s P f & \ [ =改变物体的位置或电路元件的数值等,然后观察其实时的变化情况。动画图表:将静态图像变成循环动图,展示随时间的变化情况。双向绑定:将文本与图像连接起来,让它们变得可以操作。参数可视化:在模拟图表中按需生成不同c J Q W参数的可视化结果。Augmented Physics 的设计框架如何根据O ! z x d静态图表创建互动式的动画( 8 l N W u s呢?Augmented Physics 是这么用的。创建工作流在 Augmented Physics 创建一个工作流程的步骤如V G q P \下:1. 导入教科书页面A= . 2 t , i o 8ugmentb @ G 1 e [ed Physics 支持计算机端和C D R b移动端,你可以通过手机拍照上传,也可以直接导入 PDF。2. 选择模拟类A 7 h ? D K , p型Augmented Physics 可以让涉及运动、光学和电路的相关图像动起来。不属于这N H R C J I些分类的图像,「动画」功r s K – #能也能让它动起来。3. 提取并分割图像用户可以在特定区| ` , s域用方框和点把要动起来的区域画出来。4. 定义分割后的图像分割完成后,需要标明分割出来的物体在整个系统中的角色,比如下面的这张透镜成像图,就标记了焦点 F、透镜、和投影对象。对于电路图,Augmented Physics 可以通过图像识别,自动识别电C h k y P C z阻器和电池等元素。5. 生成并运行模拟。图像分割完成并; . N E \ j E分配角色之后,系统会将分割得到的图像转换成适合物理模拟的多边形,进而生成模O T w a , o p Z )拟。如图 7 中斜坡a Y + 8 k j }滑行的示例。6. 通过参数操作与模拟实现交互。用户可以灵活地调? B #整模拟中的参数,例如动态对象的质量、静态对象的摩擦力和弹簧力常数。系统还可以识别文本或图像中的参数值,使用户能够操作页面上的数值。例如,在电路模拟中,用户可以修改电阻和电池的值,以动态改变模拟结果。此外,该系统还能自动将文本中的数值链接到模拟中对象的特定属性,并且用户可以编辑这些属性。支持的增强功能该系统支持以下功能:增强实验:如下图所示,用户在选取电路图后,该= 6 *系统会生成一个覆盖其上的模拟,用户可以通过调整数值来与之交互。动画图表:比如对于光的折射图,用户= E X P B :可以选J + w b择一条光路,观察光的路径。双向绑定:下图展示了一个运动学图表的双向绑定示例& 0 * 6 s X。用户选择绑定一个数值,然后通过6 s i Q拖动可以调整这个值,然后系统会基于新的值运行模拟。参数可视化:图中展示了单摆的参数可视化。用户选择单摆和可用参数后,该系统可以可视化其随时间m B ^ . t A B的变化情况。实现该系统主要包含两个组件:使用 Python 的后端计算机视觉管道模块和使用 React.js 开发的前端 Web 界面。其中,计算机视觉模块集成了广泛使用的图像分割模型H I = 7 C } Segment-Anything,以及通过 OpenCV 定制开发的线和轮廓检测算法。前端| G v o p和后端之间的通信通过 Firebase 实时数据库实现,并允许根据提供的输入坐标处理图像。得到的结果(包括提取的图像、线条或点)随后通过g ` / Firl l f uebase 传回。此外,该系统还会计算提取的图像的边界框和 X 和 Y 坐标,并将这些数据传输到前端。对于文本识别和数值提取,他们使用了谷歌的 Cloud Vision API。然后,将页面文本和提取的对象数据以 JSON 格式发送到 LLM(GPT-4),该 LLM 的作用是推荐模拟类型并根据文本自动设置模拟参数。在原型设计和技术评估中,前端是 2022 版 14 英寸的 MacBook Air 上运行的 Chromeq V ) P 浏U 7 D览器,后端是 Google Colab(CPU:Intel Xeon 4 核,GPU:Nvidia T4,RAM:50GB)A m m。技术评估* & p f 2 r \ 7表 1 总结了技术评d J g I L D ~估结果。模拟不同元素的成功率如K ) @ 6 Y ` \ l 3下:运动学为 64%、光学为 44%、电路r / Y Z ^ C t为 40%(经过微小编辑后可提升至 62%)、动画b : 6 –为 66%。i C d : l ~ \ G q具体细节请参阅原论文。用户研4 9 F V \究初步用户研究在初步研究中,该团队评估了系统可用性得分 (SUS)、总体参与度和系统的有用性8 b ` O ) ! l。新j X u \ N N设计的系统获得了 92.73 的总体 SUS 得分,标准差(SD)为 9.84。参与者最喜欢功能的是参数可视化(平均值 (M)=6.8,SD=0.4)和双向绑定\ Z F L [(M=6.7/7| L $ r l g |,SD=0.67),其次是增强实验(M=6.0/7,SD=1.78)和动画图表(M=6.2,SD=1.07)(图 13)。总体而U X \ W 4 = # h h言,参与者认为所有功能都很有用。专家意见该团队也询问了专家的看法。他们普遍表示,该系统可以帮助他们为学生创建个性化的\ $ R R a ~ 0 h Y模拟。他们也给出了自己的反馈,总结如下: