当前位置: 首页 » 资讯 » 科技头条 » 正文

加州大学洛杉矶分校推出WorldBench:AI模型物理学新"考试"系统

IP属地 中国·北京 科技行者 时间:2026-02-03 00:05:41


这项由加州大学洛杉矶分校联合索尼AI、耶鲁大学和美国陆军研究实验室共同完成的研究发表于2025年1月29日,论文编号为arXiv:2601.21282v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当我们看到积木塔摇摇欲坠即将倒塌,或者观察一颗球滚下楼梯时,作为人类,我们能够毫不费力地预测它们的运动轨迹。这种对物理规律的直觉理解对人类来说是天生的能力,但对人工智能来说却是一个极大的挑战。近年来,像英伟达Cosmos这样的"世界基础模型"声称能够大规模学习这些技能,并承诺可以作为真实世界的合成数据生成器。然而,要严格评估这些声明是否属实,我们需要专门设计的基准测试系统,能够在概念层面深入检验这些模型的物理理解能力。

正是在这样的背景下,研究团队开发了WorldBench这一全新的基准测试系统。如果把当前的AI物理理解评估比作一场考试,那么现有的测试就像是把数学、物理、化学的问题混在一张试卷上,让人根本无法判断学生到底是哪门功课没学好。WorldBench的创新之处就在于为每个物理概念和规律设计了专门的"分科考试",让研究者能够精确地诊断AI模型在哪个具体的物理概念上存在不足。

传统的物理理解测试存在一个关键问题,就像用粗糙的筛子筛面粉一样,只能得到粗略的结果。现有的基准测试通常会将多个物理定律和概念纠缠在一起进行评估,这从根本上限制了它们的诊断能力。比如,当一个测试同时涉及重力、摩擦力和碰撞动力学时,如果模型表现不佳,我们根本无法确定问题出现在哪个具体环节。更糟糕的是,这些测试往往使用简单的二元选择指标,这就像用"对"或"错"来评判一幅画的好坏一样,完全无法区分视觉上看起来真实但物理上不准确的结果。

为了解决这些问题,WorldBench采用了一种全新的设计理念。整个系统分为两个互补的部分,就像为学生设计了两种不同类型的考试。第一种是"直觉物理理解"测试,主要评估模型对基本物理概念的把握,比如物体永存性或尺度透视关系。第二种是"物理参数估计"测试,要求模型精确遵循特定的、可测量的物理参数,如重力加速度、流体粘度和摩擦系数。

当研究团队使用这个新系统测试最先进的视频生成模型时,他们发现了一个令人深思的现象。这些模型在生成视觉上令人信服的场景演化方面表现不错,比如能让球沿着抛物线轨迹运动,但它们却无法遵循正确的物理参数,比如让球以正确的重力加速度9.8米每二次方秒下降。这种发现突出了一个重要问题:视觉真实感和物理准确性之间存在显著差异,而这对于那些希望将世界模型用作合成数据生成器的应用来说至关重要。

研究团队通过概念特定的评估发现,所有测试的模型都缺乏生成可靠真实世界交互所需的物理一致性。这一发现为更加稳健和可泛化的世界模型驱动学习铺平了道路,提供了一个更加细致和可扩展的框架,用于严格评估视频生成和世界模型的物理推理能力。

一、两套"考试系统":从直觉到精确的双重检验

WorldBench的设计哲学可以用双重考核系统来理解。就像培养一名物理学家既需要培养对自然现象的直觉感知,也需要掌握精确的数学计算能力一样,这个基准测试系统也设计了两套相互补充的评估体系。

第一套考试系统专门测试"直觉物理理解",就像测试一个人是否具备基本的物理常识。这套系统关注四个核心概念。运动物理学测试模型是否理解物体如何移动和相互作用,比如当两个球相撞时会发生什么。物体永存性检验模型是否明白物体在被遮挡时仍然存在,这听起来简单,但对AI来说却是一个挑战,就像婴儿需要学会理解藏猫猫游戏中的物体并没有真正消失一样。支撑关系评估模型对物体如何相互支撑的理解,比如一个物体放在桌子边缘时什么情况下会保持平衡,什么情况下会掉落。尺度透视关系则测试模型是否理解物体的大小和空间关系如何随着与摄像机的距离变化而改变。

第二套考试系统则更加严格,专门进行"物理参数估计"测试。这就像要求学生不仅要知道苹果会从树上掉下来,还要能精确计算出它下降的加速度是9.8米每二次方秒。这套系统设计了三个核心实验:重力实验通过自由落体和抛物运动来测试模型是否能准确模拟重力加速度;粘度实验通过钢球在不同液体中的下沉速度来评估模型对流体粘度的理解;摩擦实验通过物体在不同材料表面上的滑动来检验摩擦系数的准确性。

为了确保测试的准确性和可重复性,研究团队采用了精心设计的实验设置。所有模拟视频都使用Kubric这一开源物理模拟平台渲染,该平台结合了PyBullet的精确物理模拟和Blender的高质量渲染能力。这种组合就像同时拥有了精密的计算引擎和出色的视觉呈现工具,确保了生成的测试场景既物理准确又视觉真实。

在直觉物理理解部分,研究团队构建了469个视频,其中425个是合成视频,44个是真实拍摄视频。每个概念都设计了3到5个不同的场景,每个场景包含25个视频,通过随机化物体类型、位置和材料特性来创造丰富的测试样本。在物理参数估计部分,团队创建了279个视频,涵盖重力(81个视频)、摩擦(103个视频)和粘度(95个视频)的各种实验设置。

这种双重考核设计的巧妙之处在于,它能够同时检测模型的宏观理解能力和微观精确度。就像评估一名医生既要看他是否具备基本的医学常识,也要检验他能否准确诊断具体病症一样,WorldBench通过这两套系统的结合,为AI模型的物理理解能力提供了全面而细致的评估。

二、创新的评估方法:从视频到物理参数的精确提取

WorldBench的评估方法可以比作一套精密的"物理侦探系统"。当我们拿到一段视频时,就像侦探面对犯罪现场一样,需要从视觉线索中提取出隐藏的物理信息。这个过程涉及多个步骤,每一步都像解谜游戏中的关键环节。

对于直觉物理理解的评估,研究团队开发了一套基于视觉分析的方法。这个方法的核心是使用SAM2(Segment Anything Model 2)来追踪视频中的物体。整个过程就像给物体贴上智能标签,然后观察这些标签在整个视频中的移动轨迹。首先,系统从生成视频的第一帧中提取物体的边界框,然后用SAM2在整个视频序列中追踪这些物体。通过比较生成视频中的物体分割结果与真实情况的差异,系统可以计算出前景物体的平均交并比(mIoU)和背景区域的均方根误差(RMSE)。

这种评估方法的优势在于它不仅关注物体的位置,还关注物体的形状变化、遮挡关系和整体场景的一致性。比如,在测试物体永存性时,系统会检查物体在被柱子遮挡后重新出现时,其形状、大小和运动轨迹是否保持合理。在评估支撑关系时,系统会观察物体在失去支撑后是否表现出正确的下落行为。

对于物理参数估计部分,评估方法更加复杂和精确,就像建立了一个专业的物理实验室。这个过程需要从单目视频中提取三维位置信息,这本身就是一个技术挑战。研究团队采用了一套精心设计的解决方案。首先,他们使用传统的棋盘格方法校准相机的内参和外参,这就像给摄像机配备了精确的"眼镜",让它能够准确感知空间关系。然后,他们在所有视频中都放置了一个棋盘格作为参考,由于知道棋盘格角点的三维位置,系统可以动态估计每个视频的相机外参。

为了简化深度估计的复杂性,研究团队巧妙地设计了实验装置,确保物体始终在与相机平行的平面内运动,这样深度就保持恒定且可以精确测量。物体的二维位置通过SAM2追踪获得,取物体掩模的质心作为其像素坐标。一旦获得了物体在整个视频序列中的三维位置数据,系统就可以进行物理参数的计算。

对于重力实验,系统通过对物体位置随时间的变化进行二次函数拟合来估计加速度,然后直接与重力加速度9.8米每二次方秒进行比较。对于摩擦实验,系统使用物理公式μ = (g sin θ - a)/(g cos θ)来计算摩擦系数,其中θ是斜面角度,a是测量得到的加速度。对于粘度实验,系统首先通过线性拟合估算物体的终端速度,然后使用斯托克斯定律η = 2r?(ρs - ρf)g/(9vt)来计算流体粘度,其中r是球的半径,ρs和ρf分别是球体和流体的密度,vt是终端速度。

为了验证这套评估系统的准确性,研究团队在真实拍摄的视频上进行了验证测试。结果显示,所有估算的物理参数都在可接受的误差范围内。比如,对于自由落体和抛物运动,估算的重力加速度分别为9.78±0.38和9.85±0.36米每二次方秒,非常接近理论值9.81。对于不同液体的粘度测试,甘油的估算粘度为1.22±0.01帕·秒,玉米糖浆为5.84±0.02帕·秒,蜂蜜为13.82±0.75帕·秒,这些数值都在合理的范围内。

这套评估方法的创新之处在于它将复杂的物理分析转换为可量化的指标,同时保持了高度的准确性和可重复性。通过这种方法,研究者可以精确地诊断AI模型在特定物理概念上的表现,为模型改进提供具体的指导方向。

三、令人意外的发现:视觉真实与物理准确的巨大鸿沟

当研究团队使用WorldBench对当前最先进的世界模型进行测试时,他们发现了一个既令人吃惊又发人深省的现象。这些模型就像擅长画画但不懂物理的艺术家,能够创造出视觉上令人印象深刻的场景,但在遵循基本物理定律方面却表现得相当糟糕。

测试涵盖了多个代表性模型,包括Cosmos系列(Cosmos-1自回归版本、Cosmos-1扩散版本、Cosmos-2的2B和14B参数版本,以及Cosmos-2.5)和几个图像到视频的生成模型(如Wan 2.2、Hunyuan Video和CogVideoX)。这些模型代表了当前视频生成技术的最高水平,但测试结果却揭示了一个普遍存在的问题。

在直觉物理理解方面,所有模型的表现都远低于预期。以前景物体的平均交并比为例,大多数模型的得分都在0.2到0.4之间,这意味着它们生成的物体位置和形状与真实情况的重叠度只有20%到40%。更令人担忧的是,随着视频长度的增加,模型的性能会急剧下降,就像累积误差的雪球效应一样,越滚越大。

在物理参数估计方面,结果更是令人震惊。几乎所有模型在重力加速度的估算上都存在严重偏差。比如,理论上应该是9.81米每二次方秒的重力加速度,有些模型的估算结果却接近零,甚至出现负值,这意味着在这些模型生成的视频中,物体有时会向上"掉落"。Cosmos-1自回归版本估算的自由落体重力加速度为4.215±3.713米每二次方秒,抛物运动为4.297±1.294米每二次方秒,都远离正确值。图像到视频模型的表现甚至更糟,CogVideoX对自由落体重力的估算结果为-0.039±0.136米每二次方秒,这个负值意味着物体在"向上掉落"。

在流体粘度测试中,大多数模型都无法正确区分不同液体的粘度特性。它们往往将高粘度液体(如蜂蜜)模拟得像低粘度液体,或者将低粘度液体模拟得过于粘稠。有趣的是,摩擦系数的估算相对来说是最成功的,大多数模型能够正确地保持不同材料摩擦系数的相对顺序,尽管绝对数值仍有偏差。

研究团队还发现了几个重要的模式。首先,模型在处理合成视频和真实视频时的表现相似,这表明问题不在于训练数据与测试数据之间的分布差异,而是模型本身缺乏对物理规律的理解。其次,模型在处理具有强训练先验的场景时表现更好,比如球滚下斜坡这样的常见场景,但在处理不常见的物体交互时就会出现问题。

更有趣的是,研究发现模型的表现与物体交互持续时间有关。在那些物体交互时间较长的场景中,如斜坡实验和桌面实验,模型的表现相对较好。而在那些快速交互的场景中,如两物体碰撞或多米诺骨牌倒塌,模型的表现就明显下降。

这些发现揭示了当前世界模型的一个根本问题:它们主要依靠从大规模视频数据中学到的视觉模式,而不是真正理解支配这些现象的物理定律。就像一个从未学过物理的人通过观看大量视频来模仿物体运动,他们可能能够复制表面的视觉效果,但无法理解背后的物理机制。

这种差距对于那些希望将这些模型用作合成数据生成器的应用来说尤其重要。如果一个自动驾驶系统使用这样的模型生成训练数据,它可能会学到错误的物理行为,比如认为车辆在刹车时会加速,或者物体会无视重力定律。因此,虽然这些模型在创建视觉上吸引人的内容方面很有用,但要将它们用于需要物理准确性的应用中,还有很长的路要走。

四、深度诊断:AI模型的物理认知盲点

通过WorldBench的细致分析,研究团队不仅发现了AI模型在物理理解上的整体不足,更重要的是,他们识别出了这些模型存在的具体认知盲点。这就像医生不仅诊断出病人生病了,还能准确指出病变的具体位置和性质。

在直觉物理理解的四个核心概念中,模型表现出了明显的差异化模式。物体永存性是所有模型最大的挑战,大多数模型的得分都低于0.3。这意味着当物体被遮挡时,模型往往会"忘记"它们的存在,或者在物体重新出现时无法保持其正确的位置、大小和运动状态。这个问题特别明显地出现在柱子遮挡和墙壁反弹等场景中。

相比之下,尺度透视关系对大多数模型来说是最容易处理的概念,许多模型在这方面的得分都超过0.4。这可能是因为透视变化是视频数据中最常见的视觉现象,模型从大量训练数据中学会了这种模式。然而,即使在这个相对简单的任务中,模型仍然会犯一些基本错误,比如物体在远离相机时变化速度不正确,或者在接近相机时出现不自然的变形。

支撑关系的测试结果显示了另一个有趣的模式。模型在处理稳定支撑情况时表现相对较好,但在预测不稳定情况下的物体行为时就会出现严重问题。比如,当一个物体被放置在桌子边缘时,模型往往无法正确预测它会在什么条件下保持平衡,什么条件下会掉落。这表明模型缺乏对重心、支撑面积和稳定性之间关系的理解。

在物理参数估计方面,研究团队发现了一些特别值得关注的模式。所有模型在所有实验中都表现出极高的方差,这意味着即使是相同的输入条件,模型在不同次运行中也会产生截然不同的结果。这种不一致性对于任何实际应用都是致命的,因为它意味着模型的行为不可预测。

更深入的分析显示,模型倾向于生成视觉上合理但物理上不准确的运动轨迹。以重力实验为例,大多数模型确实会让物体沿着抛物线路径运动,这在视觉上看起来是正确的。然而,当仔细测量这些轨迹时,研究人员发现物体的加速度往往与重力加速度相差甚远。有些模型让物体下落得太慢,有些让物体下落得太快,还有一些甚至产生了负的重力加速度。

在材料属性的理解上,模型显示出了明显的"平均化"倾向。对于那些具有极端属性的材料,如高粘度的蜂蜜或低摩擦的塑料表面,模型往往会将它们的行为向平均值靠拢。这种现象表明模型并没有真正学会不同材料的物理特性,而是在某种程度上"记住"了训练数据中最常见的情况。

研究团队还发现了一个有趣的训练偏向现象。模型在处理某些特定物体时表现明显更好。比如,在重力测试中,当使用篮球作为下落物体时,模型的表现通常比使用其他形状物体时要好。这暗示着模型严重依赖于训练数据中的具体视觉模式,而不是抽象的物理规律。

时间尺度也是一个关键因素。模型在短时间序列中的表现相对较好,但随着预测时间的延长,误差会累积得越来越严重。这种累积误差效应在物理系统中尤其危险,因为小的初始误差可能会导致完全错误的最终结果。

最令人担忧的发现之一是模型缺乏物理常识的自我修正能力。在真实世界中,如果我们看到一个物体表现出不符合物理定律的行为,我们的大脑会自动识别出这是不合理的。但这些AI模型似乎缺乏这种内在的物理常识检查机制,它们可能会生成物理上完全不可能的场景而没有任何"察觉"。

这些深度诊断结果为改进AI模型指明了具体的方向。它们表明,仅仅依靠大规模视频数据的训练是不够的,模型需要更明确的物理约束和规律的嵌入。同时,这些发现也提醒我们,在将这些模型应用于关键任务时需要格外谨慎,特别是那些要求物理准确性的应用领域。

五、扩展评估:语言理解能力的物理推理测试

除了基于视频生成的评估外,研究团队还开发了一套基于语言的物理推理测试,这就像为AI模型设计了一套"口试"来补充"实操考试"。这套测试选择了181个代表性视频,为每个视频设计了一个自然语言问题,要求模型通过观看视频来回答关于物理现象的问题。

这些问题涵盖了真假判断和多项选择两种形式,就像我们在学校考试中遇到的题目类型一样。比如,在观看多米诺骨牌的视频后,模型需要回答"会有多少个多米诺骨牌被推倒?"这样的问题,选项包括"没有"、"一个"、"两个"或"超过两个"。另一个例子是观看椅子掉落的视频后判断"椅子在撞击地面时会顺时针旋转"这个陈述的真假。

研究团队测试了多个代表性的视觉语言模型,包括开源模型如Qwen2.5系列(7B、32B和72B参数版本)、GLM 4.1V、Mistral Small和Llama-3.2-11B-Vision,以及闭源模型如Gemini 2.5 Flash、Gemini 2.5 Pro、Claude Sonnet 4和GPT-4.1。这些模型代表了当前多模态理解技术的最高水平。

然而,测试结果同样令人失望。表现最好的模型是Gemini 2.5 Pro,但即使如此,它的整体准确率也只有49.72%,仅比随机猜测稍好一些。在开源模型中,令人意外的是,32B参数的Qwen2.5模型的表现反而超过了72B版本,这主要得益于它在运动物理类别中的出色表现。

更详细的分析显示,所有模型在不同物理概念类别中的表现存在显著差异。运动物理是所有模型表现最好的类别,大多数模型的准确率都超过了50%。这可能是因为运动轨迹是视频数据中最直观和常见的模式,模型从训练数据中学到了这些基本的运动规律。

物体永存性再次成为所有模型的最大挑战。大多数模型在这个类别中的得分都低于40%,其中Qwen系列模型的表现尤其糟糕。这与视频生成测试中的发现一致,进一步证实了当前AI模型在理解被遮挡物体的持续存在方面存在根本性困难。

有趣的是,在墙壁反弹场景的测试中,不同模型表现出了巨大差异。Qwen系列模型在这个场景中的得分接近零,而Gemini系列模型的准确率却超过了60%。这种差异可能反映了不同模型在训练数据和架构设计上的差别。

尺度透视关系的测试结果显示,大多数模型在这方面的理解相对较好,准确率普遍在45%到55%之间。这与视频生成测试的结果相呼应,表明透视变化确实是当前AI模型相对容易掌握的概念。

支撑关系的测试结果介于物体永存性和透视关系之间,大多数模型的准确率在40%到60%之间。这表明模型对稳定性和支撑的理解虽然不完美,但比对物体永存性的理解要好一些。

这些语言基础测试的结果与视频生成测试形成了有趣的对比。虽然具体的评估方式不同,但两种测试都揭示了类似的问题模式:模型在基本的物理概念理解上存在系统性缺陷,特别是在物体永存性方面。同时,这些结果也表明,无论是通过生成视频还是通过语言回答,当前的AI模型都无法达到人类水平的物理直觉理解。

更重要的是,这种多模态评估方法为未来的研究提供了更全面的测试框架。通过结合视频生成、物理参数估计和语言推理三种不同的评估方式,研究者可以从多个角度全面诊断AI模型的物理理解能力,为模型改进提供更精确的指导。

研究团队的这项工作不仅揭示了当前AI模型在物理理解方面的不足,更重要的是为整个领域提供了一套标准化、细致化的评估工具。就像医学诊断需要多种检查手段来确保准确性一样,AI模型的物理理解能力也需要这种多维度的综合评估。WorldBench的意义不仅在于指出了问题,更在于为解决这些问题提供了精确的诊断工具和改进方向。

说到底,这项研究告诉我们一个重要的事实:让AI真正理解物理世界比我们想象的要困难得多。当前的模型虽然能够生成视觉上令人印象深刻的内容,但它们更像是技艺高超的画家而不是真正的物理学家。它们能够模仿物理现象的外观,但缺乏对支配这些现象的基本规律的深层理解。

这种发现对AI技术的发展具有深远的影响。对于那些需要精确物理建模的应用,如自动驾驶、机器人控制或工程仿真,我们不能简单地依赖这些模型的视觉输出。相反,我们需要开发新的方法来明确地将物理约束和规律嵌入到AI系统中。

同时,WorldBench为未来的研究提供了宝贵的工具和基准。研究者们现在有了一个标准化的方法来测试和改进他们的模型,这将推动整个领域向着更加物理感知的AI系统发展。随着更多研究团队使用这套基准测试,我们有理由期待看到在物理理解方面有真正突破的新一代AI模型。

归根结底,这项研究提醒我们,建造真正智能的AI系统需要的不仅仅是大量的数据和强大的计算能力,还需要对现实世界运作规律的深刻理解。WorldBench不仅是一个测试工具,更是通向真正理解物理世界的AI系统的重要里程碑。对于任何关心AI技术发展方向的人来说,这项研究都值得密切关注,因为它可能会深刻影响未来AI系统在现实世界中的应用方式。

Q&A

Q1:WorldBench是什么?

A:WorldBench是由加州大学洛杉矶分校等机构开发的AI物理理解评估系统。它专门用来测试AI模型是否真正理解物理规律,而不仅仅是能生成好看的视频。系统分为两部分:一部分测试基本物理直觉(如物体永存性),另一部分测试精确的物理参数(如重力加速度)。

Q2:现在的AI视频生成模型物理理解能力如何?

A:测试结果很令人担忧。虽然这些模型能生成视觉上很真实的视频,但在物理准确性方面表现很差。比如很多模型无法正确模拟9.8米每二次方秒的重力加速度,有些甚至产生负值重力。所有测试模型都缺乏生成可靠物理交互所需的一致性。

Q3:WorldBench评估系统有什么特别之处?

A:WorldBench最大的创新是"分科考试"式的设计。传统测试把多个物理概念混在一起,无法判断具体哪里有问题。WorldBench则为每个物理概念设计专门测试,能精确诊断AI模型在哪个具体物理规律上有缺陷,就像医生能准确定位病变部位一样。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。