![]()
这项由香港科技大学的严驰和徐丹教授在2025年开展的突破性研究,发表在计算机视觉领域的顶级会议上,论文编号为arXiv:2510.04759v2。研究团队开发了一套名为PG-Occ的创新系统,能让AI仅通过普通摄像头就准确理解三维空间中的物体分布,就像人类的双眼一样自然。
要理解这项研究的重要性,我们可以把现在的自动驾驶汽车想象成一个戴着厚厚眼镜的近视患者。虽然它们配备了昂贵的激光雷达等传感器,但在理解周围环境时仍然经常"看不清"或"看不全"。更麻烦的是,这些AI系统就像一个只认识课本上固定词汇的学生,只能识别预先设定的物体类型,比如"汽车"、"行人"、"树木"等。当遇到课本上没有的东西时,它们就会一脸茫然。
港科大的研究团队想要解决的核心问题是:如何让AI像人类一样,仅凭视觉就能准确理解三维空间的物体分布,并且能够识别任何用文字描述的物体?这就好比要训练一个学生,不仅要让他通过看照片就能准确判断房间里家具的摆放位置,还要让他能理解任何新词汇的含义。
在传统的AI视觉系统中,研究人员面临着一个经典的矛盾。如果让AI系统处理每一个微小的空间细节,计算量会变得极其庞大,就像要求一个人记住房间里每一粒灰尘的位置一样不现实。但如果简化处理过程,AI又会错过很多重要的小物体,就像一个粗心的观察者会忽略桌上的钥匙或墙角的垃圾桶。
严驰和徐丹教授的团队找到了一个巧妙的解决方案。他们设计的PG-Occ系统采用了一种"渐进式"的观察方法,就像一个经验丰富的侦探破案一样。系统首先快速扫描整个场景,掌握大致的布局和主要物体的位置,这相当于侦探初次到达案发现场时的整体观察。然后,系统会自动识别哪些区域需要更仔细的观察,并逐步加大对这些区域的关注程度,就像侦探会重点检查可疑的地方一样。
一、渐进式高斯建模:从粗糙到精细的观察艺术
传统的AI视觉系统就像一个只会用固定规格画笔作画的画家,无论画大的建筑物还是小的细节,都使用同样粗细的笔触。这样画出来的作品要么缺乏细节,要么耗费大量时间和颜料。PG-Occ系统则像一位技艺高超的画家,会根据画面需要灵活选择不同粗细的画笔。
PG-Occ使用了一种叫做"3D高斯"的数学工具来表示空间中的物体。你可以把每个3D高斯想象成一个有形状、有位置、有透明度的彩色云朵。系统首先在空间中撒下一些大的云朵来捕捉主要物体的轮廓,就像画家先用粗笔勾勒出画面的主要结构。这个初始阶段使用了4000个这样的"云朵"来覆盖整个场景。
接下来就是PG-Occ系统最创新的部分:渐进在线密集化。系统会像一个挑剔的艺术评论家一样,仔细检查初步的"画作",找出哪些地方还不够清晰或者缺乏细节。具体来说,系统会比较自己的理解和实际观察到的场景,计算出哪些区域的预测深度与真实深度差异较大。
当系统发现某个区域"画得不够好"时,它会在那里添加更多更小的"云朵"来增加细节。这个过程会重复进行,每一轮都会让画面变得更加精确。研究团队设置了两个渐进层,每层会额外添加1000个新的高斯"云朵",最终系统可以用6000个不同大小和形状的"云朵"来精确描述整个三维场景。
这种渐进式的方法解决了计算效率和精确度之间的矛盾。系统不需要一开始就处理所有细节,而是先抓住主要特征,然后有针对性地加强重要区域的细节表现。这就像一个聪明的学生学习新知识时,先理解大致框架,再逐步填充具体内容,既高效又深入。
二、各向异性感知采样:让AI的"眼睛"更像人类
人类的视觉系统有一个非常巧妙的特点:我们看不同物体时,关注的范围是不同的。看一棵大树时,我们的视野会自动扩大来捕捉整棵树的形状;看一只小鸟时,视野会自动聚焦到更小的区域来捕捉细节。传统的AI视觉系统就像戴着固定焦距眼镜的人,无论看什么都用同样的"视野范围",这显然不够灵活。
PG-Occ系统引入了一种"各向异性感知采样"的技术,让AI的"眼睛"变得像人类一样智能。系统中的每个3D高斯"云朵"都有自己独特的形状特征,有些是扁平的(适合表示墙面或地面),有些是细长的(适合表示柱子或树干),有些是接近球形的(适合表示车辆或行人)。
当系统需要从摄像头图像中提取某个物体的特征信息时,它会根据该物体的3D高斯形状来调整"采样范围"。对于扁平的高斯,系统会在图像上采集一个较大的矩形区域的信息;对于细长的高斯,系统会采集一个细长条形区域的信息。这就好比一个经验丰富的摄影师,拍摄不同主题时会自动调整取景框的大小和形状。
具体实现上,系统会为每个高斯生成16个采样点,这些点不是随机分布的,而是根据高斯的形状特征有规律地分布在其有效影响范围内。然后,系统会将这些3D采样点投影到各个摄像头的图像平面上,提取对应位置的视觉特征,并将来自不同视角的信息融合起来。
这种方法的巧妙之处在于,它让系统能够更准确地捕捉不同形状物体的特征。想象你要描述一面墙和一根电线杆,显然你需要关注的视觉信息范围是不同的。墙面需要大范围的纹理和颜色信息,而电线杆则需要关注其细长的边缘特征。各向异性感知采样正是模拟了这种人类视觉的自适应特性。
三、非对称自注意力机制:新老信息的和谐共处
在PG-Occ的渐进式处理过程中,系统面临着一个微妙的平衡问题。每当添加新的高斯"云朵"来增加场景细节时,这些新添加的"云朵"还没有经过充分的训练和优化,就像刚加入乐队的新成员还不熟悉曲谱一样。如果让这些"新手"立即影响已经训练得很好的"老手",可能会扰乱整个系统的稳定性。
传统的自注意力机制就像一个完全民主的讨论会,每个参与者都可以影响其他所有人。但在PG-Occ的渐进式框架中,这种完全平等的交流方式可能会让新加入的、还不够成熟的高斯"云朵"对已经优化得很好的"云朵"产生负面影响,就像让刚入学的新生去指导即将毕业的学长一样不合适。
研究团队设计了一种"非对称自注意力"机制来解决这个问题。在这个机制中,新添加的高斯"云朵"可以"倾听"和"学习"已有的"云朵"的经验,但不能反过来影响它们。这就像建立了一个师傅带徒弟的制度:徒弟可以观察师傅的技艺并从中学习,但不能指导师傅该怎么做。
具体实现上,系统使用了一个巧妙的注意力掩码。假设系统在第b层有xb个高斯,其中前xb-1个是从上一层继承来的"老手",后面xb - xb-1个是新添加的"新手"。注意力掩码会确保编号小于xb-1的"老手"高斯不会受到编号大于等于xb-1的"新手"高斯的影响,但"新手"高斯可以从所有高斯(包括"老手")那里学习。
这种设计的智慧在于既保护了已有的学习成果,又为新信息的融入提供了渠道。随着训练的进行,那些新添加的高斯会逐渐变得成熟和可靠,在下一个渐进层中,它们也会成为"老手",指导更新的"新手"。
四、深度感知的密集化策略:找到遗漏的细节
PG-Occ系统如何知道哪些地方需要添加更多细节呢?研究团队采用了一种基于深度比较的策略,就像一个质量检查员通过比较产品规格和实际产品来发现问题一样。
系统首先利用当前的高斯"云朵"渲染出一个深度图,这相当于系统对场景深度分布的"理解"。然后,系统将这个理解与从真实摄像头图像中提取的参考深度进行比较。如果某个区域的理解深度与参考深度差异超过预设阈值(通常设为最终占用网格分辨率的一半),系统就会判断这个区域需要更多关注。
这种判断方式非常直观和有效。当系统的理解与实际观察存在较大差异时,通常意味着该区域存在系统没有充分建模的物体或结构。通过在这些区域增加新的高斯"云朵",系统可以逐步提高对复杂场景的理解准确性。
整个密集化过程是完全自动化的,不需要人工干预。系统会自动识别需要改进的区域,生成新的采样点,并通过远端点采样算法选择最具代表性的点作为新高斯的中心。这种自适应的处理方式让PG-Occ能够处理各种复杂程度的场景,从简单的室外环境到复杂的城市街道。
五、开放词汇语义理解:让AI懂得任何描述
传统的AI视觉系统就像一个只认识课本单词的学生,只能识别训练时见过的固定类别物体。但现实世界中的物体种类是无穷无尽的,而且人们对同一物体可能有不同的描述方式。PG-Occ系统通过融入语言理解能力,实现了真正的"开放词汇"物体识别。
系统的核心思想是让每个3D高斯"云朵"不仅包含几何信息(位置、形状、透明度),还包含语义特征信息。这些语义特征是512维的向量,可以理解为每个"云朵"的"语义指纹"。这个指纹不是针对特定物体类别的,而是一个通用的语义表示,能够与任何文字描述进行比较。
当用户输入一个文字查询时,比如"找到垃圾桶"或"定位交通标志",系统会使用CLIP文本编码器将这个查询转换成同样是512维的语义向量。然后,系统会计算每个高斯"云朵"的语义特征与查询向量的相似度,相似度高的区域就是系统认为符合查询描述的区域。
这种方法的强大之处在于它的泛化能力。即使系统在训练时从未见过"垃圾桶"这个特定类别,但如果它学会了识别具有垃圾桶特征的物体(比如圆柱形状、金属质感、通常放在路边等),它就能成功响应"垃圾桶"的查询。这就像一个聪明的孩子,即使没有专门学过"天鹅"这个词,但通过对"白色"、"长脖子"、"会游泳的鸟"等特征的理解,也能认出天鹅。
系统的训练过程不需要大量的3D标注数据,而是充分利用了2D图像中丰富的语义信息。通过将3D高斯渲染到2D图像平面,系统可以利用现有的2D视觉-语言模型的知识,逐步学会在3D空间中理解和定位各种物体。
六、多视角时空信息融合:像人类一样整合视觉信息
人类在理解三维空间时有一个重要特点:我们会自然地整合来自不同角度和不同时刻的视觉信息。当我们绕着一辆车走动时,我们能够将从不同角度看到的车的侧面、前面、后面等信息综合起来,形成对这辆车完整的三维理解。PG-Occ系统也采用了类似的多视角融合策略。
在自动驾驶场景中,车辆通常配备多个摄像头,覆盖前方、后方、左右两侧等不同方向。PG-Occ系统能够同时处理来自所有摄像头的信息,并将它们融合到统一的三维表示中。这就像一个拥有多只眼睛的昆虫,能够同时从各个角度观察环境。
系统使用ResNet-50作为图像特征提取器,从每个摄像头的图像中提取视觉特征。但更重要的是,系统还会利用历史信息来增强当前的理解。具体来说,系统会使用前面7帧的图像信息,通过时间维度的信息融合来提高理解的准确性和稳定性。
这种时空融合的好处是多方面的。首先,通过多个视角的信息,系统能够更准确地判断物体的三维形状和位置,避免单一视角造成的遮挡或视觉盲区问题。其次,通过时间序列信息,系统能够建立更稳定的理解,减少因为光照变化、阴影或其他瞬时因素造成的识别错误。
在具体实现中,系统会将每个3D高斯的采样点投影到各个摄像头的图像平面上,提取对应位置的特征向量,然后通过一个特征聚合模块将来自不同视角和不同时刻的特征融合成单一的代表性特征。这个过程就像一个经验丰富的侦探,会综合各种线索和证据来得出最可靠的结论。
七、训练策略:仅用2D监督实现3D理解
PG-Occ系统面临的一个重要挑战是如何在缺乏大量3D标注数据的情况下训练出准确的3D理解能力。获取精确的3D语义标注是非常昂贵和耗时的,就像要求为每一个物体制作精确的三维模型一样困难。研究团队采用了一个巧妙的策略:利用相对容易获取的2D监督信息来训练3D理解能力。
系统的训练过程主要依靠两类2D监督信号。第一类是深度信息,系统使用Metric3D V2模型从单张图像中估计的深度图作为监督信号。虽然这些深度估计不是完全精确的,但已经足够为系统提供几何约束。系统会将其3D高斯表示渲染成深度图,然后与参考深度进行比较,通过SILog损失、L1损失和时间一致性损失的组合来优化几何准确性。
第二类监督信号是语义特征,系统使用MaskCLIP模型从图像中提取的文本对齐特征作为监督目标。系统会将3D高斯的语义特征渲染到2D图像平面,然后与MaskCLIP提取的特征进行比较,通过余弦相似度损失和均方误差损失的组合来优化语义理解能力。
这种训练策略的精妙之处在于充分利用了2D视觉理解的成熟技术。MaskCLIP和Metric3D V2等模型在2D视觉任务上已经达到了很高的准确性,PG-Occ通过巧妙的渲染机制将这些2D能力"提升"到3D空间。这就像通过观察影子来理解三维物体的形状,虽然影子本身是二维的,但包含了足够的三维信息。
整个训练过程在8块A800 GPU上进行8个轮次,大约需要9小时就能完成。相比于需要大量3D标注数据的传统方法,这种训练方式大大降低了数据准备的成本和复杂度。
八、实验结果:超越现有方法的显著提升
研究团队在多个权威数据集上对PG-Occ系统进行了全面测试,结果显示该系统在多个关键指标上都取得了显著的性能提升。在Occ3D-nuScenes数据集上,PG-Occ达到了15.15的mIoU(mean Intersection over Union,平均交并比),相比之前的最佳方法GaussTR的13.25,实现了相对14.3%的提升。
这个提升幅度听起来可能不够惊人,但在AI视觉领域,这样的改进是相当显著的。要知道,每提升一个百分点都需要算法的实质性创新。这就像运动员的成绩,从9秒90提升到9秒80看似微小,但实际上需要技术和训练方面的重大突破。
更重要的是,PG-Occ在计算效率方面也展现出明显优势。系统的推理速度达到了2.40 FPS(每秒帧数),相比GaussTR的1.04 FPS提升了131%。同时,训练时间从GaussTR的12小时降低到9小时,训练效率提升了25%。这意味着PG-Occ不仅更准确,而且更实用。
在开放词汇检索任务上,PG-Occ在nuScenes检索数据集上取得了21.2的可视mAP(mean Average Precision,平均精度),超过了之前最佳的视觉方法LangOcc的18.2。这个结果证明了系统的开放词汇理解能力确实达到了新的水平。
特别值得注意的是,PG-Occ在中等大小物体的识别上表现尤为出色。在雷达图分析中可以看到,系统在汽车、巴士、卡车等常见车辆类型的识别准确率显著高于其他方法。虽然在一些小物体的识别上还有改进空间,但这主要是由于评估时使用的体素分辨率(0.4米)相对较粗,限制了精细优化的高斯"云朵"发挥作用。
九、深度估计的意外收获:超越监督信号本身
PG-Occ系统展现了一个令人意外的特性:它对深度的估计精度甚至超过了用于监督训练的参考深度。系统在深度估计任务上取得了0.139的绝对相对误差,相比用作监督信号的Metric3D V2模型的0.170,实现了18.2%的提升。
这个现象乍看起来似乎违反常理,就像学生的成绩超过了老师一样。但实际上这反映了PG-Occ系统设计的巧妙之处。系统通过多视角几何一致性约束和时间序列信息融合,能够自动校正单一视角深度估计中的错误和不一致之处。
具体来说,当系统从不同摄像头观察同一个物体时,它必须确保从不同角度渲染出的深度信息是一致的。这种几何一致性约束就像一个内在的校正机制,能够自动发现和修正深度估计中的错误。此外,时间序列信息的融合也提供了额外的约束,帮助系统建立更稳定和准确的几何理解。
这种"学生超越老师"的现象在机器学习中被称为"知识精馏"的逆向效应。虽然Metric3D V2提供了初始的监督信号,但PG-Occ通过自身的多视角和时序约束机制,实际上实现了对这个监督信号的改进和完善。
十、消融实验:验证每个组件的重要性
为了验证PG-Occ系统各个创新组件的有效性,研究团队进行了详细的消融实验。这些实验就像拆解一台精密机器,逐一检查每个零件的作用。
当移除渐进在线密集化模块时,系统的mIoU从15.15下降到14.84,RayIoU从13.92下降到12.58,mAP从21.20下降到19.21。这证明了渐进式添加高斯"云朵"确实是性能提升的关键因素。没有这个机制,系统就像一个只能用粗笔作画的画家,无法捕捉场景中的精细细节。
移除各向异性感知采样模块会导致mIoU轻微下降至15.03,但在开放词汇检索任务上的影响更为明显,mAP下降到20.12。这说明虽然几何准确性影响不大,但语义理解能力确实受到了影响。各向异性采样就像给AI配了一副更合适的"眼镜",让它能更准确地观察不同形状的物体。
非对称自注意力机制的重要性通过另一组实验得到验证。移除这个模块后,mIoU从15.15下降到14.85,这看似下降幅度不大,但考虑到这个模块主要是为了维持训练稳定性,这个结果已经说明了它的价值。更重要的是,没有这个机制的系统在训练过程中表现出更大的不稳定性,收敛速度也更慢。
研究团队还测试了不同数量的扩展高斯对性能的影响。结果显示,从0个扩展高斯逐步增加到1000个时,性能持续提升,但继续增加到2000个时,传统指标略有下降,不过在更精细的mAP评估中仍有改善。这说明存在一个最优的高斯数量平衡点,既能保证细节捕捉,又不会造成过度复杂化。
研究还发现,每个高斯的采样点数量也会影响性能。从8个采样点增加到32个点时,mIoU从15.05提升到15.46,但训练时间也相应从8小时增加到11.2小时。这又一次体现了准确性和计算效率之间的权衡关系,16个采样点被证明是一个较好的平衡选择。
十一、系统的优势与局限性:全面而客观的评估
PG-Occ系统相比传统方法展现出多个显著优势。首先是计算效率的大幅提升,系统实现了相对41.1%的推理速度提升,这对于需要实时处理的自动驾驶应用来说至关重要。其次是训练效率的改进,25%的训练时间缩短意味着研究和开发成本的降低。
系统最大的优势在于其开放词汇能力。传统系统就像一个只认识有限词汇的翻译器,而PG-Occ更像一个能够理解新概念的智能助手。当面对训练时未见过的物体类型时,系统仍能通过语义理解给出合理的识别结果。
然而,系统也存在一些局限性。首先,在小物体识别方面仍有改进空间,这主要受限于评估时使用的体素分辨率。其次,由于采用视觉感知方法,系统在处理被遮挡区域时可能出现理解偏差,就像人类视觉也会受到遮挡物影响一样。
另一个技术挑战是高斯尺度约束问题。在驾驶场景的稀疏视点约束下,确保高斯"云朵"在深度方向上的合理尺度比较困难,这可能导致一些视觉上的不连续现象。此外,随着渐进建模过程中高斯数量的增加,内存和计算开销也会相应增长,在某些极限情况下可能影响实时性能。
研究团队对这些局限性有清醒的认识,并在论文中提出了未来的改进方向,包括探索4D高斯方法来处理动态场景,以及引入更多多视角约束来改善几何一致性。
说到底,PG-Occ系统代表了AI视觉理解领域的一次重要进步。它成功地将渐进式处理、多模态融合和开放词汇理解结合起来,创造了一个既高效又准确的3D场景理解系统。虽然仍有改进空间,但这项研究为自动驾驶、机器人导航等应用开辟了新的可能性。对于普通人来说,这意味着未来的AI系统将能更像人类一样理解和描述周围的三维世界,无论是帮助视障人士导航,还是让家用机器人更好地理解家庭环境,都将变得更加可能。有兴趣深入了解技术细节的读者可以通过论文编号arXiv:2510.04759v2查询完整研究内容。
Q&A
Q1:PG-Occ系统是什么?它能做什么?
A:PG-Occ是由香港科技大学开发的AI视觉系统,它能让AI仅通过普通摄像头就准确理解三维空间中的物体分布,并且能识别任何用文字描述的物体。与传统只能识别固定类别物体的AI不同,PG-Occ具备"开放词汇"能力,可以理解和定位之前从未见过的物体类型。
Q2:PG-Occ的渐进式处理方法有什么优势?
A:渐进式处理让系统像经验丰富的画家一样工作,先用粗笔勾勒整体结构,再逐步添加细节。这种方法解决了计算效率和精确度之间的矛盾,系统不需要一开始就处理所有细节,而是先抓住主要特征,然后有针对性地加强重要区域的表现,既提高了准确性又保证了实时性能。
Q3:这项技术对普通人的生活有什么意义?
A:PG-Occ技术将让AI更像人类一样理解三维世界,这意味着未来的自动驾驶汽车将更安全可靠,家用机器人能更好地理解家庭环境,视障辅助设备可以更准确地描述周围环境。这项技术还大大降低了AI训练成本,使先进的视觉理解能力更容易普及到各种应用中。





京公网安备 11011402013531号