当前位置: 首页 » 资讯 » 科技头条 » 正文

EMMA框架如何从视频、声音和图像中还原真实物理规律

IP属地 中国·北京 科技行者 时间:2026-06-15 22:12:44

这项研究来自亚利桑那州立大学计算与增强智能学院(SCAI)IMPACT实验室,论文预印本于2026年5月21日发布在arXiv平台,编号为arXiv:2605.24047v1,研究方向隶属计算机视觉领域(cs.CV),研究成果计划在CVPR 2026上展示。感兴趣的读者可通过上述编号在arXiv检索完整论文。


**一个关于"侦探"的故事**

假设你是一名经验丰富的侦探,被要求仅凭一段监控录像判断一辆赛车的发动机功率、轮胎摩擦系数、车身重量,以及驾驶员在录像之外究竟踩了多深的油门。听起来像天方夜谭——毕竟很多关键信息根本没有出现在画面里。然而,如果你同时还能听到发动机的声音录音,甚至手边还有一张印有发动机转速曲线的图表,那么破案的胜算会大幅提升。

亚利桑那州立大学的研究团队正是带着这样的思维,构建了一个名为**EMMA**(Extracting Multiple physical parameters from Multimodal Data,从多模态数据中提取多个物理参数)的系统。这个系统就像一位同时拥有"看"、"听"和"读图"能力的物理侦探,能够从视频画面、环境声音以及图表图像中,自动还原出控制物理系统运动的各种参数——比如摆长、摩擦系数、电机增益、无人机推力系数等——而且这一切都不需要在机器人或无人机上安装任何昂贵的传感器。

为什么这件事值得普通人关注?归根结底,物理参数的提取是构建"数字孪生"(digital twin,即真实系统的虚拟复制品)的核心。当一台火星探测车出发前往未知地带,工程师需要在地球上有一个完全一致的数字副本进行仿真测试;当一架快递无人机发生故障,维修人员需要能够精确还原出飞行器的物理特性,才能诊断问题所在。过去,这种还原过程需要大量精密仪器,代价高昂且操作复杂。EMMA的出现,意味着只需一部普通摄像机拍摄的视频,加上一个麦克风,再加上一张从报告里截下来的图表,一台普通电脑就能完成这项工作。

**一、"单靠眼睛"为什么不够用——视频单模态方法的天然局限**

在EMMA出现之前,学术界已经有不少研究尝试仅凭视频画面来估算物理系统的参数,比如通过追踪钟摆的摆动轨迹来推算摆长和阻尼系数,或者通过分析滑块在斜面上的运动来推算加速度。这些工作在受控环境下取得了不错的成绩,但在真实世界中却常常碰壁。

问题出在哪里?关键在于视频是"眼睛看到的",但很多影响运动的因素根本不会出现在画面里。以一辆遥控小车为例,摄像机可以记录它在地面上的移动轨迹,但它的车轮转速是由电机控制的,而电机接受的指令信号从来不会出现在画面中——这就是所谓的"隐藏驱动输入"(hidden forcing input)。仅凭视频轨迹去推算车辆参数,就好比你看到一个人在走路,却不知道他走路的目的地和他的体力状态,于是对他走了多远的估计就会出现严重偏差。

与此同时,还有一类更隐蔽的物理效应——研究团队称之为"隐式动力学"(implicit dynamics)。比如地面对车轮的摩擦阻力、空气对无人机机身的阻力,这些力既不会在视频中直接显示,也不容易通过普通传感器测量,但它们实实在在地影响着物体的运动。如果不把这些因素纳入考量,估算出来的物理模型就像少了几块拼图,永远无法还原完整的真实世界。

还有一个更细节却同样致命的问题:坐标系。摄像机不知道拍摄对象的绝对位置,不知道"起点"在哪里,也不知道画面中的像素坐标如何对应真实世界的物理坐标。许多现有方法都悄悄假设这些信息已知,但现实中往往并非如此。EMMA的目标,就是把这些"未知的已知"也一并还原出来,让最终的物理模型真正有意义。

**二、EMMA的"侦探工具箱"——三条信息通道的协同作战**

EMMA的核心思路是:一个好侦探不会只依赖一种证据。它同时接收三种输入:视频画面、音频信号,以及从图表或图像中提取的时间序列数据。每种输入都经过专门设计的处理流程,最终汇聚成统一的"物理线索库"。

视频处理流程是EMMA的第一条通道,专门负责"用眼睛看"。系统首先调用YOLOv11(一种成熟的目标检测工具)在每一帧画面中找到感兴趣的物体,设置的识别置信度阈值为0.85——太高会导致大量帧被丢弃,太低则会引入噪声。找到物体之后,系统通过三层过滤机制剔除边缘附近的噪声检测结果,再用卡尔曼滤波器(一种专门用于平滑轨迹的数学工具,追踪状态包括位置和速度)减少抖动,然后根据具体场景进行坐标转换:比如对于摆锤,需要把像素坐标转换为角度;对于移动物体,需要做精度校准。最后再用加权移动平均进行去噪,得到干净的物理坐标时间序列。值得一提的是,研究团队还验证了一种完全不依赖预训练检测器的替代方案——法内巴克光流法(Farneback optical flow),这种方法完全无监督,同样能达到接近的精度,进一步证明EMMA的核心价值在于后端的物理推理,而不是前端用了哪种特定的特征提取工具。

音频处理流程是第二条通道,让EMMA具备了"用耳朵听"的能力。原始音频以44.1 kHz采样率录制,经过降采样到22.05 kHz后,使用librosa工具库计算短时傅里叶变换(STFT),提取均方根能量、频谱质心以及主导峰值频率三个特征。这些特征随后通过自动校准模块对齐到视频帧的时间轴上。其中有一个关键的先验假设:对于地面车辆的车轮和非飞行状态下的旋翼,电机转速与声音的主导频率之间存在近似线性的关系(就好比电风扇转得越快,嗡嗡声的音调越高)。EMMA利用这个关系,把声音中的频率信息转换为电机转速的估计值,从而弥补视频中看不到电机指令的缺陷。这个线性关系里的两个系数(斜率和截距)本身也是需要估算的"不变量",由后端的神经网络自动学习。

图像处理流程是第三条通道,让EMMA能够"读懂图表"。对于从仿真器生成的图表、医疗传感器的显示图像或其他带有曲线的图片,系统使用PIL(Python图像库)和OpenCV(计算机视觉库)的组合:先加载图像,裁剪感兴趣区域,进行颜色空间转换和对比度归一化,然后通过颜色掩码隔离目标曲线,最终将曲线离散化为带时间戳的数值序列。这意味着即便没有任何传感器,只需要一篇论文里的一张结果图,EMMA也能从中提取物理参数。

三条通道的输出在时间轴上对齐之后,拼接成一个统一的多模态特征向量,每个时刻对应一个长度为100的向量(通过空间编码将各模态的轨迹离散化为100个采样点)。缺失的模态用零填充或学习到的嵌入向量代替,确保系统在只有部分数据时也能正常运行。

**三、EMMA的"大脑"——液态时间常数网络如何学会物理规律**

收集好所有线索之后,侦探还需要一套推理机制才能得出结论。EMMA的推理核心是一种名为**液态时间常数网络**(Liquid Time-Constant Network,简称LTC网络)的特殊神经网络,外加一个负责输出最终参数的全连接层。

普通的神经网络处理时间序列数据时,往往把时间当成一格格离散的步骤,就像翻相册一样,一张一张地看。LTC网络则不同,它在连续时间上运作,内部存在一个微分方程来描述"记忆"如何随时间演化。更关键的是,LTC的时间常数(可以理解为"记忆的衰退速度")不是固定的,而是随着输入信号的变化而动态调整的。具体来说,每个神经元的动态方程包含两部分:一部分与输入信号相关,专门用于建模外部驱动力(如电机指令);另一部分是一组包含更多变量的隐式动态方程,其变量数量远超系统实际需要测量的状态数,因此天然具备建模隐式动力学(如摩擦力)的能力。

用一个比喻来理解:如果把普通循环神经网络比作一个只能按节拍鼓掌的鼓手,LTC网络就像一个能根据现场音乐情绪实时调整节奏和力度的爵士鼓手——它的响应方式本身就是音乐(也就是物理规律)的一部分。

研究团队将LTC与两种同类的连续时间神经网络进行了对比:Neural ODE(神经常微分方程)和CT-GRU(连续时间门控循环单元)。在没有外部驱动力的简单场景(如单纯的钟摆)中,三种架构的表现旗鼓相当。但一旦引入外部驱动力(如遥控小车),LTC网络的平均参数误差比Neural ODE低约25%,比CT-GRU低约5%,显示出输入依赖型时间常数对于建模受迫动力学的关键优势。

LTC网络输出的隐状态向量随后传入两层全连接网络进行参数解读。负责估算物理参数的部分使用Sigmoid激活函数,将输出压缩到0到1之间,再通过一个特定的反归一化公式还原到物理量纲上。负责估算校准不变量(如坐标原点偏移、音频线性变换系数)的部分则使用ReLU激活函数,这些参数随损失梯度线性变化,允许系统自动学习坐标系的对齐方式,不再依赖人工标注的初始条件。整个系统使用AdamW优化器配合余弦退火学习率调度进行端到端训练,完全不需要提供参数的真实标签——学习完全由物理方程驱动的损失函数引导。

**四、EMMA的"判案标准"——物理方程驱动的损失函数**

既然学习过程不需要参数的标准答案,那系统靠什么知道自己猜对了?答案是:物理方程本身就是标准答案。

EMMA的训练损失由两部分组成。第一部分是校准轨迹损失:将当前估算的参数代入已知的物理方程,用4阶龙格-库塔积分器(一种数值求解微分方程的方法,比简单的欧拉法精度高得多,对无人机这样刚性较强的系统尤为重要)向前仿真出预测轨迹,然后与从视频/音频/图像中提取的实测轨迹进行比较,计算均方误差。这里有一个精妙的设计:只有实际被测量到的状态变量才参与这个损失的计算,未测量的隐式状态不会造成虚假的惩罚。同时,每个状态变量还配有一个由ReLU层输出的校准偏移量,自动补偿坐标系原点的未知偏移。

第二部分是参数约束损失:通过ReLU惩罚函数确保估算出的参数满足物理约束,比如摆长必须为正,摩擦系数必须在合理范围内。这些软约束防止优化过程收敛到物理上不合理的解。

仿真时间步长被限制在min(0.03, 1/fps),仿真步数最多500步,参数通过软截断保持在ε=10??以上,确保数值稳定性。整个训练过程窗口大小为16帧,步长1,批大小32,耐心参数40个周期(即验证损失超过40个周期不改善则触发学习率调整),dropout率0.3。

**五、EMMA的"破案档案"——五类物理系统上的全面验证**

研究团队在超过100个场景下对EMMA进行了系统评估,涵盖标准基准测试、真实世界平台和仿真图表三大类。

第一类是基于Delfys数据集的标准基准测试,共75个视频,涵盖五种经典物理系统。钟摆实验中,系统需要同时估算摆长L和阻尼系数τ,在45cm、90cm、150cm三种摆长配置下,每种配置5个视频。EMMA在所有配置下均接近真实值(例如150cm配置下估算为1.501±0.004m,真实值为1.5m),而对比方法PAIG对所有摆长都给出了偏高的相似估计,没有随摆长变化而区分,NIRPI的误差更大且标准差较高,Delfys在极端摆长下出现偏差,PySINDy因为需要对噪声数据做数值微分,估算结果方差极大。

托里切利排水实验估算的是排水系数k,涉及√h这样的分数次方非线性,PySINDy难以表示这种结构因而出现系统性误差,EMMA则凭借物理约束损失稳定地在低方差下匹配真实值(例如小容器配置下估算0.0093±0.0004,真实值0.0095)。滑块实验需要同时估算坡角α和摩擦系数μ,EMMA在低/中/高三种坡度下均优于对比方法,参数估计稳定。LED衰减实验中,EMMA在快速、中速、慢速三种衰减模式下均准确还原衰减率,对测量噪声和摄像机自动曝光调整有很好的鲁棒性。自由落体实验中,EMMA连续时间的建模方式天然适应不规则采样,而PySINDy对离散微分的依赖使其在帧率变化时误差扩大。

第二类是真实世界系统的多参数提取,也是EMMA最具挑战性的展示。差速驱动遥控小车有9个参数,其中X臂长、Y臂长、轮半径、质量和质心高度有已知真值。质心高度和轮半径是隐式动力学参数(无法直接从视频观察),其余是显式参数。EMMA在有已知真值的5个参数上平均误差为8.8%±1.7%,例如X臂长估算为0.196m(真实值0.178m),轮半径估算为0.223m(真实值0.201m),质心高度估算为0.120m(真实值0.112m)。重要的是,EMMA没有使用任何关于车轮空转功率或坐标系原点的先验信息,这些不变量全部由系统自动学习校准。

六自由度四旋翼无人机有12个参数,EMMA在有已知真值的7个参数上平均误差为15.9%±7.4%。推力系数估算1.017(真实值1.1),扭矩系数估算1.501(真实值1.3),电机增益估算1.007(真实值0.91),电机时间常数估算0.015s(真实值0.012s),X臂长估算0.158m(真实值0.18m),Y臂长估算0.173m(真实值0.20m),Z轴偏移估算0.051m(真实值0.07m)。其中推力系数、扭矩系数、电机增益和时间常数均属于隐式动力学参数,由音频推断的旋翼转速辅助估算,视频数据提供的是位置轨迹。

第三类是从仿真图表中提取参数,涵盖F8战斗机飞行控制(3个参数)、Lotka-Volterra捕食者-猎物生态模型(4个参数)、Lorenz混沌振荡器(3个参数)、HIV治疗动力学以及I型糖尿病自动胰岛素输送系统(Bergman最小模型,仅有血糖一个可测量状态变量,其余全是隐式变量)。在所有案例中,EMMA在参数估算均方根误差(θrmse)和轨迹重建均方根误差(xrmse)上均大幅优于PySINDy。以Lotka-Volterra为例,显式动力学(所有状态可观测)条件下EMMA的θrmse为0.048±0.003,PySINDy为0.054±0.013;隐式动力学(只有一个状态可观测)条件下EMMA的θrmse为0.054±0.003,PySINDy高达6.3±1.7。混沌Lorenz系统的轨迹重建误差差距更大:显式条件下EMMA为1.68±0.4,PySINDy为3.66±1.1;隐式条件下EMMA为1.7±0.4,PySINDy飙升至37.4±6.1。糖尿病AID案例最为极端,在隐式条件下EMMA的轨迹误差为8.7±1.6,PySINDy则高达79.6±21.3。

**六、EMMA的"免疫测试"——鲁棒性验证与效率分析**

一套好的推理系统不仅需要在理想条件下表现优秀,还需要对各种干扰具有一定抵抗力。研究团队专门进行了多项鲁棒性测试。

在初始化灵敏度测试中,团队将参数搜索范围扩展到真实值的200%,并从远离真实值的位置开始优化。结果显示,EMMA在6个测试配置中的5个上达到了低于10%的误差(例如低坡度滑块配置:初始化从25°开始,估算结果为20.69°,真实值为20°,误差3.45%;150cm摆长配置:初始化从1.10m开始,估算结果为1.620m,误差8.02%;90cm摆长配置是唯一超出10%的情况,误差24.08%)。这表明EMMA不需要"猜得差不多才能收敛",对初始条件的依赖性较低。

在音频噪声鲁棒性测试中,团队向小车音频流中注入不同信噪比(20dB、10dB、5dB)的高斯噪声。结果所有估算参数的变化幅度均低于1.1%(X臂长0.15%,Y臂长0.55%,轮半径1.08%,质心高度0.04%),表明音频处理流程对现实环境中的噪声干扰有很好的抵抗性。

在多随机种子统计验证中,小车在5个随机种子(42至46)下的平均误差为9.5%±8.9%,无人机为17.5%,验证了结果的可重现性而非偶然性。

在计算效率方面,EMMA在NVIDIA RTX Ada 6000 GPU上每个训练周期平均耗时0.37秒,是对比方法Delfys(0.19秒/周期)的约1.4倍。耗时增加源于LTC网络需要求解常微分方程这一计算密集型操作。然而EMMA的模型参数量仅为53.2K,而Delfys为5.7M,EMMA的参数量是Delfys的107分之一。这种极度轻量化的设计意味着EMMA天然适合在资源受限的边缘设备上部署,相关研究表明类似架构在FPGA上能实现11倍的内存降低。

**七、从"纸上谈兵"到"落地应用"——EMMA的现实意义与边界**

EMMA所有已提取的参数都是可解释的、可执行的——也就是说,用这些参数可以直接驱动仿真器,得到与真实系统高度吻合的轨迹。这与那些只能输出"黑盒"预测的纯数据驱动方法有本质区别。一个精确的数字孪生意味着:工程师可以在虚拟环境中对自动驾驶车辆进行安全测试,不需要让真实车辆冒险;维修团队可以通过比较数字孪生的行为和真实设备的行为来诊断故障;控制算法可以基于准确的物理模型进行设计,而不是依赖不断试错。

当然,EMMA目前也有明确的局限性。它依赖至少一个随时间变化的可观测模态——完全静态的观测无法为动态参数估算提供足够信息。音频处理中使用的线性频率-转速先验,在无人机飞行状态下或存在强湍流时可能失效(因为空气动力学效应会使声音特性变得复杂)。系统对剧烈的摄像机抖动较为敏感,因为跟踪算法依赖帧间的连续性。此外,LTC网络的ODE积分使运行时间高于简单的静态神经网络。

说到底,EMMA做的事情可以用一句话概括:它让任何一台普通相机、任何一个普通麦克风,乃至一篇旧论文里的一张图表,都有可能成为还原真实世界物理规律的科学仪器。当机器可以"听音辨速"、"观形知力"、"读图识参",构建高保真数字孪生的门槛就从"专业实验室"降到了"有数据就行"。这对无人机、机器人、工业自动化、医疗监控乃至太空探测的研究者来说,都意味着一条新的捷径。感兴趣的读者可以通过arXiv编号2605.24047查阅完整论文,代码和数据也已通过论文中提供的GitHub仓库公开。

Q&A

Q1:EMMA框架为什么要同时使用视频、音频和图表三种数据,只用视频不行吗?

A:单靠视频有一个根本缺陷:很多影响物体运动的关键因素根本不会出现在画面里。比如遥控小车的电机指令、无人机的旋翼转速,这些都是"隐藏驱动力",视频完全看不到。音频能弥补这一点,因为电机转速越快,声音频率越高,可以从声音中反推转速。图表则让系统能从已有的仿真报告或传感器显示图中直接提取数据,拓展了数据来源范围。三种模态互补,才能还原完整的物理图景。

Q2:EMMA里的"液态时间常数网络"和普通神经网络有什么实质区别?

A:普通循环神经网络以固定节奏处理时间序列,像按节拍走的节拍器。液态时间常数网络的关键在于它的"记忆衰退速度"(时间常数)会随着输入信号动态变化,而不是固定不变。这让它能够自然地建模外部驱动力(如电机指令)和隐式物理效应(如摩擦力)。在有外部驱动力的复杂场景中,实验证明它比Neural ODE平均误差低约25%,比CT-GRU低约5%。

Q3:EMMA估算出来的物理参数精度能达到什么水平,误差有多大?

A:在标准基准测试上,EMMA对150cm摆长的估算误差约为0.07%(1.501m vs 1.500m),对托里切利排水系数的误差约为2%以内。在真实世界的遥控小车上,有已知真值的5个参数平均误差为8.8%±1.7%;在无人机上,7个有已知真值的参数平均误差为15.9%±7.4%。误差的大小取决于系统复杂度和可观测信息的丰富程度,但总体处于工程应用可接受的范围内。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。