当前位置: 首页 » 资讯 » 科技头条 » 正文

港大让AI学会动态空间推理:理解物体在三维空间中的运动变化

IP属地 中国·北京 科技行者 时间:2025-12-26 18:29:41


这项由香港大学的周胜超、齐晓娟领导,联合腾讯PCG ARC实验室的陈宇鑫、葛育英等研究者完成的研究,发表于2025年12月的arXiv预印本平台,论文编号为arXiv:2512.20557v1。研究团队针对当前视觉语言模型在理解动态场景中物体空间关系变化方面的不足,开发了一套名为DSR Suite的完整框架,让AI能够像人类一样理解和推理三维空间中物体随时间的运动变化。

想象你正在看一场足球比赛的录像,需要判断两名球员之间的距离如何变化,或者预测一个球员接下来会朝哪个方向移动。对人类来说,这种空间推理能力是天生的,我们能够轻松理解三维世界中物体的位置关系和运动趋势。然而,对于目前的AI系统来说,这却是一个巨大的挑战。

当前的视觉语言模型虽然在静态图像理解方面表现出色,但在处理动态场景时却显得力不从心。它们往往只能识别画面中的物体,却无法准确理解这些物体在三维空间中如何移动,相互之间的距离如何变化,或者从不同观察角度看到的场景会是什么样子。这种局限性严重阻碍了AI在机器人导航、自动驾驶、增强现实等需要实时空间理解的应用中的发展。

研究团队深刻认识到这个问题的核心在于缺乏高质量的训练数据和有效的评估基准。现有的数据集要么局限于静态场景,要么只涉及简单的短时间运动,无法为AI提供足够丰富的动态空间推理学习材料。更重要的是,传统方法在将三维几何信息融入视觉语言模型时,往往会因为信息过载而影响模型的通用性能。

为了解决这些问题,研究团队开发了一套革命性的解决方案。他们首先构建了一个自动化数据生成流水线,能够从真实世界的视频中提取丰富的几何和运动信息,包括相机位置、点云数据、物体轮廓、朝向角度和三维运动轨迹。基于这些信息,他们创建了两个核心数据集:用于训练的DSR-Train和用于评估的DSR-Bench。

更令人兴奋的是,团队还提出了一个轻量级的几何选择模块GSM,这个模块就像一个智能筛选器,能够根据具体问题从大量的三维信息中精准提取相关的几何知识,避免无关信息对模型造成干扰。这种设计巧妙地解决了几何信息融入与通用性能保持之间的矛盾。

一、破解动态空间推理的数据难题

要让AI学会动态空间推理,首先需要解决的就是训练数据的问题。研究团队面临的挑战可以比作教一个从未见过真实世界的孩子理解物体运动规律——你需要为他提供大量生动、准确的运动场景示例。

团队从Koala-36M这个包含3600万个真实世界视频的大型数据库开始筛选。这些视频涵盖了从体育比赛到日常生活的各种场景,为AI提供了丰富多样的学习素材。然而,并非所有视频都适合用于空间推理训练。许多视频中的物体基本静止不动,或者只有微小的位置变化,这对于学习动态空间关系来说毫无价值。

为了筛选出真正有用的视频,团队设计了一套智能过滤系统。对于训练数据,他们使用DeepSeek-R1语言模型根据视频描述进行初步筛选,挑选出那些描述了明显物体运动的视频。对于更精确的评估数据,他们则使用Gemini-2.5-Pro直接分析视频内容,确保选中的视频确实包含有意义的空间动态变化。这种双重过滤机制就像有两道质量检查门,确保最终选中的视频都具有丰富的空间推理学习价值。

筛选过程还考虑了视频的时长。太短的视频无法展现完整的运动过程,太长的视频则会增加计算负担。团队最终选择了20秒到120秒的视频段,这个时长既能包含足够的时间信息,又保持了处理的效率。经过这轮精心筛选,他们从海量视频中挑选出10000个用于训练的高质量视频和575个用于评估的精选视频。

接下来,团队需要从这些视频中提取出AI能够理解的几何和运动信息。这个过程就像为每个视频制作一份详细的"空间说明书",记录下每个物体在每个时刻的位置、朝向、运动速度等关键信息。

在场景层面,他们使用π?模型来估计相机的位置和姿态,并生成局部点云数据。这些信息告诉AI摄像机是如何移动的,场景的三维结构是怎样的。在物体层面,他们首先使用DeepSeek-R1识别视频中的主要物体类别,将它们分为"主体"(如人、动物等能主动移动的对象)和"客体"(如车辆、物品等被动移动的对象)两大类。

然后,团队使用Grounded SAM2技术对每个物体进行精确的跟踪和分割,生成时间上连贯的物体轮廓。这些轮廓被投影到三维点云上,计算出每个物体在每个时刻的三维中心位置,形成完整的运动轨迹。对于主体类物体,他们还使用Orient Anything模型估计其朝向角度,包括方位角、仰角和滚动角。

为了确保数据质量,团队还设置了严格的过滤条件:只保留那些在整个时间段内都清晰可见的物体,剔除那些经常被遮挡或消失的对象。这样得到的几何数据既准确又完整,为后续的问答生成奠定了坚实基础。

通过这套精心设计的数据处理流水线,研究团队成功将原本只有视觉信息的视频转换成了包含丰富三维几何信息的训练材料。这些数据不仅保留了真实世界的复杂性和多样性,还提供了AI学习空间推理所需的精确几何标注。

二、构建全面的动态空间推理问答系统

有了丰富的几何数据作为基础,研究团队接下来面临的挑战是如何将这些复杂的三维信息转换成AI能够学习的问答形式。这个过程就像为每个视频场景编写一套完整的空间推理考试题,既要覆盖各种可能的推理类型,又要确保问题的准确性和答案的可靠性。

团队设计了两种不同类型的问答生成方式。第一种是基于预定义模板的标准化问答,这类问题专门针对核心的空间推理技能进行训练。第二种是自由形式的问答,通过语言模型自动生成,用于评估更全面的推理能力。

在模板化问答中,研究团队识别出了六种最重要的空间推理类型。距离推理关注两个物体之间的距离如何随时间变化,比如"在视频的前10秒内,红色汽车和蓝色汽车之间的距离是如何变化的?"方向推理则考察一个物体相对于另一个物体的方向变化,例如"从摄像机的角度看,行人相对于建筑物的方向如何改变?"

朝向推理专门针对那些有明确正面的物体(如人、动物),分析它们的朝向角度变化。速度推理评估单个物体的运动速度如何变化,而速度比较则要求AI判断两个物体谁运动得更快。方向预测是一种前瞻性推理,要求根据物体的历史运动轨迹预测其未来的移动方向。

特别值得注意的是,团队在问答设计中引入了观察视角的概念。在现实世界中,同样的物体运动从不同角度观察会得到完全不同的结果。一个向前移动的人,从他正面看是在接近,从他背后看则是在远离。为了让AI掌握这种视角转换能力,研究团队设计了两种观察模式:绝对视角和相对视角。

绝对视角就像拍照时固定摄像机的位置和角度,所有的空间关系都相对于这个固定参考系来描述。相对视角则像跟拍,观察者的位置和角度会随着某个特定物体(通常是人或主要角色)的移动而动态变化。这种设计大大增加了空间推理的复杂性和真实性。

在答案设计上,团队摒弃了传统的数值化答案,转而采用定性描述。这种选择有其深层原因:从单目视频重建的三维信息本身就是相对尺度的,不具有绝对的度量意义。更重要的是,人类在日常生活中进行空间推理时,也更多依赖定性判断而非精确测量。

答案被设计成过程性的描述,记录整个变化过程而非单一时刻的状态。例如,距离变化的答案可能是"先保持基本不变,然后逐渐增大,最后又快速减小"。这种描述方式更符合人类的认知习惯,也更能反映AI对连续时间过程的理解能力。

团队还建立了严格的答案生成规则。对于距离和速度类问题,他们定义了"基本不变"、"变大"、"变小"等基础判断标准。当两个连续时刻的数值变化在特定阈值范围内时,被认为是"基本不变";超出阈值则判断为"变大"或"变小"。

对于方向和朝向类问题,答案以空间方位的组合形式给出,如"前方"、"左上方"、"后右下方"等。这些方位判断基于向量夹角计算,当某个方向的角度分量小于特定阈值时,该方向被包含在答案中。

为了增加问答的语言多样性和推理复杂度,团队还引入了基于大语言模型的自由问答生成。他们向DeepSeek-R1提供视频的三维轨迹数据、物体身份和观察视角信息,要求模型生成既不能仅凭二维视觉信息解答、又不涉及精确数值计算的问题。这类问题往往更加灵活和开放,能够评估AI的综合空间理解能力。

通过这套问答生成系统,研究团队最终构建了包含50000个训练问答对的DSR-Train数据集和1484个精心标注的DSR-Bench评估基准。这些问答覆盖了从基础的距离判断到复杂的多物体交互推理的各种空间认知任务。

三、精心打造的评估基准展现研究深度

DSR-Bench作为这项研究的评估基准,其设计体现了研究团队对动态空间推理任务的深刻理解。这个基准包含的1484个问题分布在12个模板化类型和1个自由形式类型中,涵盖了六个主要的真实世界场景类别。

这六个场景类别的分布体现了研究的全面性:体育与娱乐类占比21%,涵盖各种运动比赛和户外活动;交通与车辆操作类占22%,包括驾驶、行车和交通场景;艺术表演类占21%,包含舞蹈、音乐演出等动态表演;手工劳作类占11%,涉及各种制作和建造活动;日常生活与爱好类占14%,包括日常家务和休闲活动;自然与野生动物类占11%,展现动物的自然行为。

这种分布确保了AI在各种不同环境和情境下都能得到充分的测试。每个场景都有其独特的空间动态特征:体育场景中的快速移动和复杂交互,交通场景中的规律性运动和相对位置变化,艺术表演中的优雅流畅动作,都为AI提供了不同类型的挑战。

更重要的是,研究团队对DSR-Bench进行了全面的人工精炼。虽然问答的初始生成是自动化的,但每一个问题和答案都经过了人工审核和调整,确保其准确性和合理性。这种精细化处理保证了评估结果的可靠性。

为了验证DSR-Bench的质量和独特性,研究团队将其与现有的空间推理基准进行了详细对比。他们发现,大多数现有基准要么局限于静态场景,要么只考虑两帧之间的简单变化,缺乏对长时间动态过程的评估。

在三维知识需求方面,团队设计了两个互补的评估维度。物体级评估考察问题是否需要理解物体的三维属性(如朝向、形状、大小),场景级评估则判断问题是否可以仅通过二维变化来回答。通过这两个维度的组合,可以将基准的三维知识需求分为弱、中等、强三个等级。

评估结果显示,DSR-Bench在三维知识需求方面达到了"强"等级,相比之下,其他基准大多停留在"弱"或"中等"水平。这表明DSR-Bench能够真正测试AI的三维空间理解能力,而非仅仅是二维图像变化的识别。

在答案精细度方面,DSR-Bench的优势更加明显。传统基准通常只提供粗粒度的答案,如"变大"或"向左",而DSR-Bench提供的是细粒度的过程描述,如"先基本不变然后逐渐变大"。这种设计要求AI不仅要识别变化的结果,更要理解变化的整个过程。

通过对比分析,研究团队证明了DSR-Bench在评估动态空间推理能力方面的独特价值。它不仅填补了现有基准在长时间动态推理评估方面的空白,还为未来的相关研究提供了一个高质量的标准化测试平台。

四、突破性的几何选择模块设计

在解决了数据和评估问题之后,研究团队面临的下一个挑战是如何有效地将三维几何信息融入视觉语言模型。传统方法往往采用直接添加或交叉注意力的方式,但这些方法存在一个根本性问题:几何信息的过载会损害模型在通用任务上的表现。

这个问题可以用一个生动的比喻来理解。传统方法就像给一个学生的书包里塞满各种参考资料,希望他能在考试中用到。结果往往是学生被沉重的书包压得喘不过气,在真正需要某本书时反而找不到。更糟糕的是,这些额外的资料可能会分散学生的注意力,影响他在其他科目上的表现。

研究团队提出的几何选择模块GSM采用了一种全新的思路。这个模块就像一个智能图书管理员,能够根据具体的问题快速找到相关的几何知识,并以紧凑的形式提供给模型。这种按需提取的机制既保证了相关信息的充分利用,又避免了无关信息的干扰。

GSM的核心设计包含两个连续的Q-Former结构,这种设计体现了研究团队对信息处理过程的深刻洞察。第一个Q-Former被称为语义压缩器,它的任务是理解和压缩问题的语义内容。当AI收到一个关于"两辆汽车距离变化"的问题时,语义压缩器会提取出"距离"、"变化"、"汽车"等关键概念,并将这些概念编码成模型能够理解的内部表示。

第二个Q-Former被称为相关几何选择器,它根据语义压缩器提供的问题理解,从大量的三维几何信息中精确提取相关知识。如果问题涉及距离变化,选择器就会重点关注物体位置轨迹信息;如果问题涉及朝向变化,选择器就会关注角度信息。这种有针对性的选择大大减少了信息噪声。

GSM的另一个巧妙之处在于其输出的固定性。无论输入的三维几何数据有多复杂,GSM始终输出固定数量(32个)的几何token。这种设计类似于将一本厚厚的百科全书浓缩成一页精华笔记,既保留了最重要的信息,又大大减轻了模型的处理负担。

这些几何token会与原始的视觉token和文本token合并,形成完整的输入序列送入语言模型。这种后期融合的策略保持了原有模型结构的完整性,不需要对预训练的视觉编码器进行修改,大大降低了实施的复杂度。

GSM的设计还考虑了不同基础模型和几何编码器的兼容性。无论是配合不同的视频理解模型,还是使用不同的三维重建系统,GSM都能够有效工作。这种架构无关性使得该方法具有广泛的应用潜力。

在参数效率方面,GSM也表现出了明显的优势。相比于直接融合方法需要处理大量可变长度的三维token,GSM只需要处理固定的32个几何token,大大减少了计算开销和内存占用。这种效率提升在处理长视频和复杂场景时尤为重要。

更重要的是,GSM成功解决了几何信息融入与通用性能保持之间的矛盾。实验证明,使用GSM的模型在动态空间推理任务上获得显著提升的同时,在通用视频理解任务上的表现几乎没有下降。这种平衡是传统直接融合方法难以达到的。

GSM的创新还体现在其对问题长度变化的鲁棒性上。通过语义压缩器的设计,无论输入问题是简短的词组还是复杂的长句,最终都会被压缩成固定长度的表示。这种设计保证了模型处理各种形式问题时的稳定性。

五、令人瞩目的实验结果验证

研究团队在DSR-Bench上进行的全面评估展现了他们方法的显著优势。他们将自己的模型与多个类别的先进模型进行了对比,包括GPT-4o、GPT-5等专有模型,LLaVA-Video、VideoRefer等视频理解专用模型,以及Qwen系列、InternVL系列等通用多模态模型,还有VLM-3R、VG-LLM等专门针对空间推理设计的模型。

实验结果令人印象深刻。在平均性能方面,研究团队的模型达到了58.9%的准确率,显著超越了所有对比模型。即使是表现最好的对比模型VG-LLM也只达到了38.4%的准确率,这意味着新方法的性能提升超过了20个百分点。

更为详细的分析显示,这种提升在各个子任务上都是全面的。在绝对距离推理任务上,新模型达到了87.0%的准确率,相比最强对比模型提升了近30个百分点。在相对方向推理任务上,新模型的准确率为76.1%,也远超其他模型的表现。

特别值得注意的是,即使是专门设计用于空间推理的模型,如VLM-3R和VG-LLM,在动态场景中的表现也远不如新方法。这表明静态空间推理的技术并不能直接迁移到动态场景中,需要专门针对时间维度的设计和训练。

有趣的是,一些大型的通用模型在某些子任务上表现出了不错的能力。例如,Qwen3-VL-30B在绝对速度推理上达到了44.0%的准确率,显示出大规模预训练的价值。然而,这些模型在需要复杂时空推理的任务上仍然表现不佳,说明仅靠规模扩大并不足以解决动态空间推理的挑战。

研究团队还进行了详细的消融实验来验证各个组件的贡献。他们比较了四种不同的训练策略:基线模型(仅在一般数据上预训练)、直接微调(SFT)、直接添加三维特征(Addition)和使用GSM的方法。

结果显示,仅仅在DSR-Train上进行微调就能将性能从23.5%提升到54.4%,证明了专用训练数据的重要性。直接添加三维特征的方法进一步将性能提升到57.7%,但在通用视频理解任务上出现了明显的性能下降(从60.2%降到48.6%)。

相比之下,使用GSM的方法在达到相似空间推理性能(57.4%)的同时,在通用任务上的性能损失微乎其微(仅从60.2%降到59.9%)。这一对比清晰地展示了GSM在平衡专用能力和通用性能方面的优势。

团队还探索了不同查询数量对GSM性能的影响。他们发现,增加查询数量能够提升空间推理性能,但也会带来通用性能的下降。32个查询被证明是一个很好的平衡点,既能获得较好的空间推理能力,又能保持通用性能的稳定。

数据规模的实验进一步验证了方法的可扩展性。随着训练数据从5000个增加到50000个问答对,模型性能从47.3%稳步提升到58.9%,显示出良好的数据利用效率。这表明继续增加高质量的训练数据有望进一步提升性能。

为了验证方法的通用性,研究团队还在其他空间推理基准上进行了测试。在VLM4D和STI-Bench等评估集上,他们的方法同样取得了最佳性能,证明了DSR-Train的训练价值不局限于自建的评估集。

六、方法的广泛应用潜力展示

为了展示动态空间推理能力的实际应用价值,研究团队进行了一系列扩展实验。他们首先探索了将静态和动态空间推理能力结合的可能性。通过混合静态空间推理数据(800K问答对)和他们的DSR-Train数据进行训练,模型在DSR-Bench上达到了60.2%的性能,同时在静态空间推理基准VSI-Bench上也取得了56.1%的优异表现。

这个结果表明,静态和动态空间推理能力并不冲突,反而可能存在互补关系。一个同时掌握两种能力的AI系统将具有更全面的空间理解能力,能够处理更广泛的实际应用场景。

更令人兴奋的是,团队将训练好的模型应用到了MineDojo游戏环境中,这是一个模拟Minecraft游戏的复杂3D世界。在这个环境中,AI代理需要与各种动态对象进行交互,如狩猎动物、对抗敌对生物等。这些任务都需要精确的动态空间推理能力。

实验结果显示,使用DSR-Train训练的模型在动物相关任务上的成功率达到26.5%,在敌对生物任务上达到22.3%,相比基线模型分别提升了约10个百分点。这种提升直接转化为了更好的游戏表现,证明了动态空间推理能力在实际代理任务中的价值。

特别有趣的是,仅使用静态空间推理数据训练的模型在这些动态任务上的表现提升有限(动物任务16.3%,敌对生物任务12.4%),再次证明了动态空间推理的独特性和重要性。这表明在需要实时交互的应用中,专门的动态空间推理训练是不可替代的。

研究团队还验证了他们的方法在不同基础模型上的有效性。将GSM和DSR-Train应用到Qwen3-VL-8B模型上,同样取得了显著的性能提升,证明了方法的通用性。这种架构无关性使得该技术可以很容易地集成到现有的各种视觉语言模型中。

在问答类型分布的实验中,团队发现模板化问答和自由形式问答的合理组合对最终性能至关重要。纯模板化问答能够很好地训练基础空间推理技能,但在灵活性上有所不足;纯自由形式问答虽然语言更自然,但可能缺乏系统性的技能覆盖。最佳的配比是80%的模板化问答配合20%的自由形式问答。

这些扩展实验不仅验证了方法的有效性,更重要的是展示了其在实际应用中的潜在价值。从游戏AI到机器人导航,从自动驾驶到增强现实,任何需要理解和预测动态三维环境的应用都可能从这项技术中受益。

七、技术创新的深层意义

这项研究的意义远远超出了技术层面的改进。它代表了AI空间理解能力从二维向四维(三维空间加时间)的重要跨越。在此之前,大多数AI系统只能理解静态的三维场景或简单的二维运动,而这项工作首次让AI具备了理解复杂时空动态的能力。

从认知科学的角度来看,动态空间推理是人类智能的核心组成部分。我们在日常生活中不断地进行着这类推理:判断一辆迎面而来的汽车是否会与我们相撞,预测一个球的落点,或者规划在人群中的行走路径。这种能力的获得标志着AI在模拟人类认知方面迈出了重要一步。

该研究的数据生成方法也具有重要的方法论价值。传统的数据标注往往需要大量人工,成本高昂且容易出错。研究团队开发的自动化流水线展示了如何利用现有的视觉基础模型来生成高质量的训练数据,这种思路可能会影响未来AI训练数据的获取方式。

GSM的设计理念同样具有广泛的启发意义。它解决的核心问题——如何在不损害通用性能的前提下增强专用能力——是多模态AI发展中的一个普遍挑战。类似的选择性融合思路可能会在其他需要整合多种信息源的AI任务中得到应用。

从技术发展的角度看,这项工作为未来的具身AI和机器人技术奠定了重要基础。在现实世界中工作的机器人必须能够理解和预测动态环境中物体的行为。无论是工厂里的协作机器人需要避开移动的工人,还是家庭服务机器人需要在有宠物和儿童的环境中导航,动态空间推理都是必不可少的核心能力。

该研究还可能对自动驾驶技术产生重要影响。当前的自动驾驶系统主要依赖于专门设计的感知和预测模块,而这项工作展示了通用的视觉语言模型在获得适当训练后也能具备精确的动态空间推理能力。这种能力的通用性可能有助于解决自动驾驶中的长尾问题。

在增强现实和虚拟现实应用中,动态空间推理能力同样至关重要。未来的AR/VR系统需要实时理解真实世界中的物体运动,并据此调整虚拟内容的呈现。这项技术为实现更自然、更智能的混合现实体验提供了可能。

说到底,这项研究最重要的贡献可能在于它为AI系统提供了一种更接近人类的空间认知方式。当AI能够像人类一样理解和推理四维时空中的物体运动时,它们就能更好地融入我们的日常生活,成为真正有用的智能助手。这不仅仅是技术能力的提升,更是AI向通用人工智能目标迈进的重要一步。

Q&A

Q1:DSR Suite是什么技术?

A:DSR Suite是香港大学和腾讯联合开发的一套让AI学会动态空间推理的完整框架。它包括一个自动化数据生成流水线,能从真实世界视频中提取三维几何信息;DSR-Train训练数据集和DSR-Bench评估基准;以及一个叫GSM的几何选择模块,能让AI像人类一样理解物体在三维空间中随时间的运动变化。

Q2:动态空间推理和普通的图像识别有什么区别?

A:普通图像识别只能识别画面中有什么物体,而动态空间推理需要理解这些物体在三维空间中如何移动、相互之间的距离如何变化、从不同角度看会是什么样子。就像看足球比赛时,普通AI只能识别出"这是球员",而具备动态空间推理的AI能判断"两个球员之间的距离在缩小,球员A正在向左前方移动"。

Q3:GSM几何选择模块为什么重要?

A:GSM解决了一个关键问题:如何在不影响AI通用能力的前提下增强空间推理能力。传统方法直接添加大量三维信息会让AI"消化不良",影响其他任务的表现。GSM像一个智能筛选器,只提取与具体问题相关的几何信息,既保证了空间推理的准确性,又维持了AI在其他任务上的正常表现。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新