![]()
这项由上海交通大学的李博涵团队和东部理工学院宁波分校、PhiGent公司、新加坡国立大学、清华大学等多家机构合作完成的研究,发表于2024年10月的arXiv预印本论文服务器(论文编号:arXiv:2510.18313v2),有兴趣深入了解的读者可以通过该编号查询完整论文。
想象一下,如果有一个AI侦探专门负责自动驾驶汽车的"眼睛",它不仅要能看懂路上发生的一切,还要能预测下一秒会发生什么,甚至要判断哪种驾驶行为更安全。听起来像科幻电影,但上海交通大学的研究团队真的做到了。他们开发出了一个名为OmniNWM的系统,就像给自动驾驶汽车配备了一个无所不知的超级大脑。
传统的自动驾驶系统就像只会看单一线索的新手侦探,只能分析普通的RGB图像,而且只能看很短时间内的情况。但OmniNWM就像一个经验丰富的老侦探,它能同时"看到"彩色画面、理解每个物体的含义、测量物体的距离,甚至能构建出整个三维世界的完整模型。更神奇的是,它还能像预言家一样,准确预测未来很长时间内会发生什么。
这个系统的核心创新在于它解决了自动驾驶世界模型的三个根本问题。第一个问题就像侦探需要收集足够多样的证据一样,以前的系统只能看到有限的信息,而OmniNWM能够同时处理彩色图像、语义信息、深度数据和三维占用情况。第二个问题类似于侦探需要精确控制调查方向,OmniNWM创造了一种全新的"导航地图"方法,能够精确控制虚拟摄像头的移动。第三个问题就像侦探需要判断哪个嫌疑人更危险一样,OmniNWM能够基于生成的三维世界直接评判驾驶行为的安全性。
研究团队的这项工作特别令人兴奋,因为它是第一个真正实现了"全景式"自动驾驶世界理解的系统。以前的系统就像只能看到拼图的几块碎片,而OmniNWM能够看到完整的画面。它不仅能生成长达321帧的连续视频序列,比传统方法长出很多,还能在完全没有针对性训练的情况下,在不同数据集和摄像头配置下工作,展现出了惊人的适应能力。
一、全景侦探的超级视力:多模态信息的完美融合
传统的自动驾驶系统就像一个只能用单眼看世界的侦探,虽然能看到基本的画面,但对世界的理解很有限。OmniNWM的第一个突破就是给这个AI侦探装上了"复合眼",让它能同时看到彩色世界、理解物体含义、测量距离,还能构建完整的三维模型。
这种多重视觉能力的实现原理其实很巧妙。研究团队设计了一个类似于"统一翻译器"的系统,它能把不同类型的视觉信息转换成同一种"语言"。具体来说,系统首先使用一个预训练的三维视频编码器,把输入的视频帧压缩成紧凑的时空特征,压缩比例达到4×8×8,就像把一张高清照片压缩成小文件但不丢失关键信息。
然后,系统使用一个名为全景扩散变换器(PDiT)的核心组件来处理这些压缩后的特征。这个变换器采用了跨视角注意力机制,就像一个能同时关注多个方向的超级眼球,能够协调处理来自不同摄像头角度的信息。最终,解码器将处理后的特征还原成像素级对齐的RGB图像、语义图和深度图。
为了确保不同模态之间的一致性,研究团队采用了一个很聪明的策略。在训练过程中,语义图被着色后再进行编码,解码后通过最近邻匹配转换回离散标签。这就像给每种类型的信息都贴上了统一的标签,确保它们能够完美对应。
这种联合生成方案最大的优势是确保了跨模态的强像素级对齐,这对于生成高质量的三维占用图至关重要。就像拼图游戏中每块拼图都必须完美契合,不同类型的视觉信息也必须在每个像素点上都保持一致,这样才能构建出准确的三维世界模型。
二、三维世界的数字重建:从平面图像到立体空间
如果说前面讲的是给AI侦探装上了复合眼,那么三维占用生成就是教会它如何理解空间关系,构建完整的案发现场模型。这个过程就像法医重建犯罪现场一样,需要从有限的证据中还原出完整的三维空间。
OmniNWM的占用模块能够从全景RGB图像、深度图和语义图中生成三维体素体积。整个过程采用了一个基于预训练EfficientNet-B7的UNet架构来提取图像特征。这个网络就像一个经验丰富的建筑师,能够从二维图纸中理解三维结构。
具体的工作流程是这样的:首先,系统提取RGB图像特征,然后分别处理深度图和语义图,通过下采样和卷积层产生深度特征和语义特征。接下来,SE3D模块在图像特征与深度/语义特征之间执行自适应聚合。最终的三维语义体素体积通过一个巧妙的外积运算得到,公式是Vb = Adapd(Fi, Fd) ? Adaps(Fi, Fs),其中Adapd和Adaps是深度和语义上下文的自适应聚合网络。
这种设计相比于直接合成完整占用网格的体积化方法有很大优势。传统的体积化方法就像要一口气建造整栋大楼,计算成本极高且难以扩展到长序列。而OmniNWM的方法更像是先准备好各种建筑材料(轻量级像素对齐特征),然后高效地组装成最终的建筑(三维占用图)。这种方法不仅能够扩展到长序列处理,更重要的是为集成基于占用的密集驾驶奖励提供了可能。
生成的三维占用图不仅仅是一个静态的空间模型,它还能够支持基于规则的密集奖励计算。系统利用NuScenes-Occupancy数据集的类别分类法,能够进行逐航路点的奖励计算。这就像给每个空间位置都贴上了详细的标签,告诉AI这里是道路、那里是障碍物、远处是建筑等等。
三、精确导航的数字罗盘:规范化全景射线图控制
如果把OmniNWM比作一个虚拟的电影摄影师,那么规范化全景射线图就是它的精密操控系统,能够实现极其准确的镜头控制。传统的驾驶世界模型在动作控制方面存在两个主要问题:一是使用稀疏的矢量化表示(比如路径点)难以准确描述多视角场景,二是数据集中轨迹多样性有限制约了模型的泛化能力。
研究团队提出的解决方案是将轨迹转换为规范化的全景普吕克射线图,这提供了一个统一的像素级表示,能够实现精确的摄像头控制。这个方法的巧妙之处在于它将复杂的三维摄像头运动转换成了二维图像格式,就像把立体的舞蹈动作记录在平面的乐谱上。
普吕克射线图的构建过程基于摄像头的内参矩阵K和外参矩阵E。对于图像中的每个像素点(u,v),它的普吕克嵌入定义为六维向量,包含了完整的几何信息。这种表示方法的优势在于它能够完整保留三维空间中射线的所有几何属性,无论摄像头如何移动旋转,都能够准确记录。
为了解决不同摄像头配置之间的兼容性问题,研究团队设计了尺度和姿态不变的规范化方法。这个过程分为两步:首先是尺度规范化,使用参考摄像头的共享内参矩阵确保尺度一致性,同时保持各个摄像头的独特视角。然后是姿态规范化,将摄像头中心和方向向量都转换到参考摄像头的坐标系中。
这种规范化的最大优势是构建了不同摄像头视角下的统一三维普吕克空间中的轨迹,显著丰富了轨迹分布的多样性。原始数据集的轨迹分布相对集中,而通过规范化处理后,系统能够生成更加多样化的训练样本,就像把原本只有几种口味的冰淇淋扩展成了几十种不同的组合。
在实际应用中,输入轨迹首先通过无参数的规范化普吕克编码器转换为射线图,然后注入PDiT模块。规范化的全景射线图在空间和时间维度上进行下采样以对齐扩散潜变量,并被分块化为普吕克嵌入令牌。这些令牌与扩散潜变量令牌连接后输入到PDiT模块的三维全注意力层中。这种设计既轻量级又有效,为全景视频生成提供了精确且可泛化的控制。
四、长期记忆的智能策略:灵活强制生成技术
OmniNWM面临的一个关键挑战是如何在长期预测中保持稳定性和准确性。这就像要求一个预言家不仅要预测明天会发生什么,还要准确预测一个月后的情况。为了解决这个问题,研究团队开发了一种名为"灵活强制策略"的技术,通过多级噪声注入来提高生成的灵活性和鲁棒性。
传统的自回归生成方法容易出现误差累积问题,就像传话游戏中错误会越传越严重。灵活强制策略的核心思想是在训练过程中故意"破坏"部分历史信息,训练模型在不完美条件下也能正常工作。这种方法在训练时独立地向每个帧和每个视角注入噪声,让模型学会在部分信息丢失或不准确的情况下仍能做出正确预测。
具体的噪声注入公式为:x(i,j) = x(i,j) + α(i) · εframe + β(j) · εview,其中εframe和εview是独立的噪声向量,α(i)和β(j)是缩放因子。这种针对每个视角/帧的噪声方案相比之前的统一噪声应用方法,能更好地处理时空扭曲。
这种策略最令人兴奋的地方是它支持两种不同的自回归推理模式。第一种是帧级自回归,类似于一步一步仔细推理,从多个历史帧生成单个未来帧。这种模式特别适合需要高精度的帧级轨迹规划仿真。第二种是片段级自回归,更像是大胆的跳跃式预测,从较少的输入生成多个未来帧。这种方法对于长视距生成更加高效,同时保持时间连贯性。
在推理过程中,历史帧可以被部分加噪以支持两种生成模式。比如在片段级自回归中,单个历史帧可以作为条件生成多个未来帧,而在后续阶段可以利用多个历史帧更好地利用动态先验。这种灵活性使得系统能够根据不同的应用需求选择最合适的生成策略。
实验结果显示,这种灵活强制策略在长期生成中表现出色,能够产生超过地面真值序列长度的高质量结果。在321帧对比241帧的测试中,带有灵活强制的模型在不同视频长度下都保持了稳定的性能,而没有使用这种策略的模型在长序列上出现了显著的质量下降。
五、智能安全评判:基于占用的密集奖励系统
OmniNWM的第三个重要创新是开发了一套基于三维占用的智能安全评判系统。这就像给AI配备了一个经验丰富的驾驶教练,能够实时评判每个驾驶动作的安全性和合理性。传统的奖励系统往往依赖外部模型或简单的规则,而OmniNWM直接利用生成的三维语义占用来定义基于规则的密集奖励。
这个奖励系统设计得非常人性化和实用。它主要考虑三个方面的驾驶表现:安全性、效率性和合规性。首先是碰撞奖励,当自车与障碍物发生碰撞时会受到惩罚,惩罚程度还与车速相关,体现了速度越快风险越大的现实逻辑。计算公式为Rcol = -αcol · Icol · |v|,其中Icol是碰撞指示函数,当发生碰撞时为1,否则为0。
边界奖励关注的是车辆是否保持在可行驶区域内,这通过检测车辆是否离开"可行驶表面"类别来实现。如果车辆驶入非可行驶区域,系统会给出相应的惩罚:Rbd = -αbd · Inon-drivable。这种设计确保了AI学会遵守基本的交通规则。
速度奖励鼓励车辆保持适当的目标速度,以促进交通效率。公式Rvel = -αvel · tanh(|v - vtarget|) · Iv巧妙地使用了双曲正切函数来平滑惩罚,避免了突变带来的训练不稳定。当速度在合理范围内时,Iv为0,不给予惩罚;超出范围时Iv为1,开始惩罚。
最终的总奖励函数整合了这三个方面:Rb = 1 + (Rcol + Rbd + Rvel)/Nreward。通过将三维占用转换为密集的航路点级反馈,这个奖励函数能够在各种场景下对策略行为进行细粒度评估。
研究团队通过一个关键的迎面卡车场景验证了奖励函数的有效性。在这个场景中,高速碰撞获得最低奖励并承受严重的碰撞惩罚;避让不足会降低奖励;而成功规避则获得最高奖励,只有最小的控制惩罚和速度惩罚。这种区分性评判能力证明了系统能够正确识别和评价不同驾驶策略的优劣。
六、视觉语言行动智能体:多模态推理的完美结合
为了充分发挥OmniNWM多模态输出的优势,研究团队还开发了一个基于Qwen-2.5-VL的语义几何推理视觉语言行动模型,称为OmniNWM-VLA。这个系统就像给AI配备了一个能够同时理解视觉、语言和行动的超级大脑,能够进行复杂的多模态推理和轨迹规划。
OmniNWM-VLA的核心是一个名为三模态Mamba基础解释器(Tri-MIDI)的创新模块,这是一个轻量级的即插即用组件,能够将视觉、几何和语义信息融合成统一的潜在表示。这种设计让模型能够同时对外观(RGB)、三维结构(深度)和场景语义(分割)进行联合推理,这对于预测几何一致且语义合理的轨迹至关重要。
处理流程首先将对齐的多视角输入——RGB图像、度量深度图和语义分割图——拼接成统一的全景网格,以保持跨视角的空间一致性。每种模态分别使用预训练编码器处理:CLIP用于RGB,SigLIP用于深度,SegFormer用于语义。然后通过特定于模态的多层感知机将特征投影到共同的嵌入空间。
接下来,基于Mamba的状态空间模型在文本查询的指导下执行跨模态融合,产生融合的潜在表示。系统使用令牌化理由(TOR)机制,在查询序列中插入特殊令牌来锚定中间推理步骤。这些位置的输出令牌被投影到下游视觉语言模型的潜在空间中,为模型提供空间和语义基础的线索。
与以2HZ产生关键帧的传统方法不同,OmniNWM-VLA在NuScenes数据集上以12HZ的频率运行,提供更精细的轨迹规划。系统扩展了OmniNWM-VLA的输出通道,不仅预测航路点的x和y坐标,还预测航向角。这种双输出格式对于构建规范化普吕克射线图至关重要,提供对全景视频生成的像素级控制。
在初始视频片段中,轨迹首先通过使用静态轨迹生成多模态结果(RGB、深度和语义),然后输入OmniNWM-VLA进行多模态推理规划。这种设计确保了高级决策制定与低级动作执行之间的无缝连接,在统一的自主驾驶流水线中有效连接了高级推理和精确控制。
七、实验验证:全方位的性能测试与突破性结果
研究团队在NuScenes和NuScenes-Occupancy数据集上进行了全面的实验验证,结果显示OmniNWM在多个关键指标上都达到了最先进的性能水平。整个系统包含112.2亿参数,其中110亿参数来自与先前工作一致的扩散变换器骨干网络,新增的2.2亿参数用于跨视角注意力层。
在RGB视频生成质量方面,OmniNWM取得了突破性成果。使用Fréchet Inception Distance(FID)和Fréchet Video Distance(FVD)作为评估指标,系统达到了5.45的FID分数和23.63的FVD分数,无需使用繁重的体积化条件(如语义占用或聚合点云),就超越了所有先前的方法。这个结果证明了联合多模态生成方法的有效性。
在深度图生成方面,研究团队使用绝对相对误差和准确性阈值作为标准指标,以LiDAR投影的地面真值进行评估。OmniNWM在绝对相对误差和δ指标上都取得了优异的性能,不仅显著超越了Dist-4D等生成方法,甚至超过了泛化能力有限的判别方法。
占用预测质量的评估同样令人印象深刻。使用IoU和mIoU指标进行测试,OmniNWM仅使用RGB图像作为输入就达到了33.3的IoU和19.8的mIoU,超越了所有对比方法,包括那些受益于精确三维几何测量的基于LiDAR的方法。这些结果有力证明了联合生成范式的有效性。
摄像头控制精度的测试使用旋转误差和平移误差指标,结果显示规范化全景射线图编码显著提升了控制性能。使用规范化方法的OmniNWM在旋转误差上达到了1.42×10^-2,平移误差为5.14×10^-2,明显优于未使用规范化的版本。旋转误差接近地面真值性能,而较高的平移误差反映了不同场景中驾驶距离的自然变化。
零样本泛化能力测试展现了系统的强大适应性。在没有微调的情况下,OmniNWM能够跨不同数据集(如nuplan或内部收集的数据集)和摄像头视角配置(如3个或6个摄像头视角)进行有效工作。这种泛化能力主要归功于规范化普吕克射线图编码策略,它创建了统一的控制表示。
轨迹规划评估在150个NuScenes验证场景上进行,结果显示不同VLA规划基线之间存在明显差异。Impromptu-VLA相比Qwen-2.5-VL取得了更高的性能,与OmniNWM-VLA的结果相当。基于占用的奖励函数有效地区分了这些VLA规划器生成的规划轨迹,证明了评估系统的有效性。
消融研究进一步验证了各个组件的重要性。占用预测模块的消融显示,联合生成的语义和深度图分别带来3.0和2.7的mIoU改善,验证了语义和深度在上下文和几何建模方面的互补优势。灵活强制策略的消融研究表明,该策略在不同视频长度上都显著改善了生成质量,特别是在长期生成序列中效果更加明显。
八、技术创新的深层价值与未来影响
OmniNWM的技术创新不仅仅体现在性能指标的提升上,更重要的是它开创了一种全新的自动驾驶系统设计范式。这种范式的核心价值在于将状态、动作和奖励三个关键要素统一在一个框架内,实现了真正意义上的端到端自动驾驶系统。
从技术架构角度看,OmniNWM最大的突破在于打破了传统系统中各个模块相互独立的局限性。以往的自动驾驶系统就像一个分工明确但沟通不畅的工厂,感知模块、决策模块和控制模块各自为政,难以实现最优的整体性能。而OmniNWM更像一个高度协调的交响乐团,各个"演奏者"不仅技艺高超,更重要的是能够完美配合,演奏出和谐的乐章。
规范化全景射线图技术的引入解决了一个长期困扰学术界和工业界的难题:如何在不同的硬件配置和数据格式之间实现无缝切换。这种技术就像创造了一种"世界语",让不同"方言"的系统能够相互理解和协作。这对于自动驾驶技术的标准化和产业化具有重要意义。
基于占用的密集奖励系统代表了另一个重要的技术进步。传统的奖励系统往往依赖简单的规则或外部评估,难以捕捉复杂驾驶场景中的细微差别。OmniNWM的奖励系统就像一个经验丰富的驾驶教练,能够从三维空间的角度全面评估驾驶行为,提供更加精确和有意义的反馈。
灵活强制策略的创新意义在于它为长期预测问题提供了一个通用的解决方案。这种方法不仅适用于自动驾驶,还可以推广到其他需要长期序列预测的领域,如天气预报、股票市场分析等。它的核心思想是通过"故意犯错"来增强系统的鲁棒性,这种反直觉的方法体现了深度学习领域的一个重要趋势。
从实际应用的角度来看,OmniNWM的技术创新为自动驾驶的商业化部署扫清了重要障碍。长期以来,自动驾驶系统在复杂场景下的可靠性一直是制约商业化的关键因素。OmniNWM通过提供更加全面、准确和稳定的环境理解能力,显著提升了系统在各种复杂情况下的表现。
系统的零样本泛化能力特别值得关注,这意味着一旦训练完成,系统可以直接应用到不同的车辆平台和传感器配置上,无需重新训练或大幅修改。这种能力大大降低了技术部署的成本和复杂性,为自动驾驶技术的规模化应用创造了有利条件。
在安全性方面,OmniNWM的密集奖励系统提供了一种量化评估驾驶安全性的新方法。这种评估不仅考虑了碰撞风险,还综合考虑了交通效率和规则遵守等多个维度,为建立自动驾驶安全标准提供了技术基础。
展望未来,OmniNWM的技术架构为更高级别的自动驾驶功能提供了基础平台。比如,系统可以进一步扩展到支持复杂的交通场景理解、多车协同驾驶、动态路径规划等高级功能。更重要的是,这种统一的框架为集成其他AI技术(如大语言模型、多模态学习等)提供了接口和标准。
说到底,OmniNWM代表的不仅仅是一个技术产品,更是一种新的思维方式和系统设计哲学。它告诉我们,真正的智能系统不应该是各种功能的简单堆叠,而应该是一个有机统一的整体,各个组件之间相互协调、相互增强。这种整体性思维对于开发下一代人工智能系统具有重要的指导意义。
从更宏观的角度看,OmniNWM的成功也反映了中国在人工智能领域,特别是自动驾驶技术方面的快速进步。上海交通大学等国内研究机构在这一前沿领域取得的突破,不仅提升了中国在国际学术界的影响力,也为国内自动驾驶产业的发展提供了强有力的技术支撑。这种技术创新能力的提升,对于中国在未来智能交通和智慧城市建设中占据优势地位具有重要意义。
Q&A
Q1:OmniNWM相比传统自动驾驶系统有什么突破?
A:OmniNWM最大的突破是实现了"三位一体"的设计,能够同时处理状态感知、精确控制和安全评判。它可以同时生成彩色图像、语义信息、深度数据和三维空间模型,还能精确控制虚拟摄像头并直接评判驾驶安全性,这是以前的系统无法做到的。
Q2:规范化全景射线图技术有什么实际作用?
A:这项技术就像创造了自动驾驶的"通用语言",让系统能够在不同的摄像头配置和数据集之间无缝切换,无需重新训练。它将复杂的三维摄像头控制转换成二维图像格式,实现了极其精确的视角控制,大大提高了系统的适应性和通用性。
Q3:OmniNWM能生成多长时间的连续预测?
A:OmniNWM可以生成长达321帧的连续视频序列,远超传统方法的预测长度。通过灵活强制策略,系统在长期预测中保持了很好的稳定性和准确性,这对于自动驾驶的实际应用非常重要,因为车辆需要提前较长时间规划路径。





京公网安备 11011402013531号