当前位置: 首页 » 资讯 » 科技头条 » 正文

瑞士苏黎世联邦理工学院研究团队让3D场景重建效率飙升33倍

IP属地 中国·北京 科技行者 时间:2026-06-10 22:31:58


这项由瑞士苏黎世联邦理工学院(ETH Zürich)联合微软研究院共同完成的研究,于2026年6月3日以预印本形式发布在arXiv平台,论文编号为arXiv:2606.05102。研究提出了一种名为ZipSplat的新型三维场景重建框架,在保证甚至超越现有方法重建质量的同时,将所需的基本图形单元数量削减了高达33倍。对于热衷于AR/VR、自动驾驶、数字孪生或者只是好奇"手机照片怎么变成3D场景"的普通读者来说,这项工作触及了一个非常根本的问题:我们真的需要那么多数据来描述一个三维世界吗?

三维场景重建,说白了,就是给定几张从不同角度拍摄的照片,让计算机"脑补"出完整的三维空间,并且能从任意新的视角渲染出逼真的画面。这就好比你看了一座建筑物的前、左、右三张照片,然后脑海里自动构建出它背后长什么样——计算机要做的事情跟这个差不多,只不过要精确得多。

目前主流的三维场景重建技术,包括所谓的"三维高斯泼溅"(3D Gaussian Splatting,3DGS),把三维空间表示为一堆椭圆形的彩色气泡——专业上叫"Gaussian"(高斯基元)。每个气泡有自己的位置、大小、颜色和透明度,把这些气泡叠加在一起,就能渲染出逼真的图像。而现有的"前馈式"方法(即不需要对每个场景单独优化、只需要一次神经网络推理就能得到结果的方法)普遍存在一个根深蒂固的习惯:每个输入像素生成一个Gaussian。

这个设计听上去很合理,但实际上存在明显的浪费。一面白墙和一件精雕细琢的古董,占据相同的像素数,就会分配到完全相同数量的气泡——哪怕白墙根本不需要那么多气泡来描述。更糟的是,如果你从多个角度拍摄同一面墙,每张照片都会为那面墙生成一堆气泡,大量重复。ZipSplat的核心思路,就是彻底打破这种"像素决定气泡数量"的绑定关系。

一、三维重建的"像素诅咒":为什么多不代表好

以拍摄一间客厅为例。假设你用一台1080P的相机从6个角度拍摄,每张照片有大约200万像素,那么现有的前馈式方法就会生成约1200万个Gaussian气泡——哪怕客厅里大部分都是平坦的墙壁、地板和天花板,这些区域用几个大气泡就能完美描述。真正需要精细刻画的,其实只是沙发的纹理、书架上的书脊、窗帘的褶皱这些细节丰富的区域。

然而现有系统不管三七二十一,凡是有像素的地方就塞一个气泡。这带来了三个连锁问题。其一,平坦区域(比如白墙)和复杂区域(比如雕花木门)获得相同的"预算",资源分配严重失衡。其二,多视角拍摄同一面墙时,系统会为同一块区域生成多份重叠的气泡,输入图像越多,气泡数量线性暴增,质量却几乎不再提升。其三,所有气泡都被"锁"在各自的观察射线上,对于相机看不到的遮挡区域,系统几乎无能为力。

这三个问题的根源是同一件事:把三维场景的表示能力绑定在二维像素网格上。ZipSplat的研究团队认为,解决方案不是修补现有框架,而是从根本上换一套逻辑——不再问"每个像素对应什么气泡",而是问"整个场景需要哪些气泡"。

二、场景令牌:把照片"压缩"成场景的精华摘要

ZipSplat的工作方式,可以用一个图书馆管理员整理藏书的比喻来理解。

一位传统的图书馆管理员(现有方法)按书架位置整理——第一排第一列放一本,第一排第二列放一本,不管两本书是不是同一本的复印件,也不管这本书重不重要,每个格子必须有一本。ZipSplat的管理员则不同:他先把所有书浏览一遍,把内容相似的合并,把重复的去掉,最终按照书的内容价值分配书架空间——精彩的书多给几格,简单的薄册子共享一格。

具体到技术层面,ZipSplat的处理流程分为三个阶段。

第一阶段是提取视觉令牌。系统接收N张输入图像,用一个预训练的多视角基础模型(研究团队选用的是DA3-Giant,一个专门处理多视角图像的神经网络)从每张图像中提取密集的"视觉令牌"(visual token)——可以理解为图像中每个小区域的特征描述卡片,包含该区域的颜色、纹理、深度等综合信息。这些令牌是多尺度的,既捕捉细节也捕捉全局结构。

第二阶段是K-means聚类压缩。所有视觉令牌合在一起数量庞大且高度冗余——毕竟多张图像描述的是同一个场景。ZipSplat用一种叫做K-means聚类的方法,在特征空间中把相似的令牌归并成K个"场景令牌"(scene token)。这里的"相似"不是指空间位置相近,而是语义和几何特征相近——从三个不同角度拍摄的同一面墙,描述它们的令牌会在特征空间中彼此靠近,被归并成一个代表"那面墙"的场景令牌。K的数量由一个压缩比参数r控制,r=1.0意味着不压缩,r=0.1意味着只保留10%的令牌。关键在于,这个参数在推理时随时可以调整,无需重新训练模型。

第三阶段是交叉注意力精炼。聚类是有损压缩,平均化会模糊细节。为了把损失找回来,每个场景令牌通过"交叉注意力"机制重新查询原始视觉令牌,相当于把摘要版的笔记和原始的详细资料对照一遍,补回被平均掉的细节。随后,场景令牌之间再通过"自注意力"相互交流,让每个令牌了解自己所在场景的整体上下文。

三、从令牌到气泡:不再沿着射线放置,而是自由飞翔

完成令牌精炼后,每个场景令牌被送入一个两层的MLP(可以理解为一个轻量级的变换器)解码成G个Gaussian气泡的全套参数:三维位置、大小(三个方向的缩放)、旋转、不透明度和颜色系数。研究团队将G设定为32,也就是每个场景令牌生成32个气泡。

这里有个关键的设计选择:气泡的三维位置不是沿着某条观察射线放置,而是通过一个特殊的激活函数(反对数激活)直接映射到无约束的三维坐标。这就好比传统方法是"沿着楼梯扶手放置装饰品"——每个装饰品必须在扶手上,ZipSplat则是"把装饰品放在房间里最合适的地方"——可以在桌上、墙上、地上,完全自由。

自由放置带来的结果在可视化对比中非常直观。现有的像素对齐方法生成的气泡分布,就像在地面铺了一张均匀的网格,无论是沙发还是白墙,气泡密度一模一样。ZipSplat生成的气泡则明显聚集在细节丰富的区域——车轮的辐条、雕像的轮廓、装饰品的边缘,而平坦的墙壁和地板上只有稀疏的几个大气泡,轻松覆盖。

研究团队还观察到一个有趣的自组织现象:同一个场景令牌解码出的32个气泡,在没有任何明确空间监督的情况下,自动聚集成空间上连贯的一组——在平坦表面上形成宽松的大片覆盖,在复杂边缘处紧密排列捕捉细节。这表明模型在训练中学会了让气泡按场景几何自我组织。

四、训练时的三个"稳定器":防止气泡飘出场景之外

自由放置带来一个新问题:没有射线约束的气泡,如果放置位置不对,可能飘到相机看不到的地方,渲染损失的梯度无法触达它,它就再也无法被纠正,训练会不稳定甚至发散。为此,研究团队设计了三项配套机制。

第一项是单向Chamfer几何损失。研究团队利用深度图将地面真实数据反投影为三维点云,然后计算每个气泡中心到最近真实三维点的距离之和,以此作为辅助损失函数,把漂移的气泡拉回到真实场景表面附近。注意这里用的是"单向"——只惩罚气泡离真实点太远,而不惩罚真实点没有被气泡覆盖。双向惩罚会迫使气泡均匀铺满所有点,重新回到僵硬的网格逻辑,破坏自适应分配的初衷。此外,对于已经有效参与渲染的气泡,几何损失的梯度会被截断,防止几何先验压过精细的光度监督。

第二项是耦合初始化。每个场景令牌解码出的32个气泡,初始时共享完全相同的参数,就像32个双胞胎从同一起点出发。这迫使模型先学会粗略的整体放置,再逐步分化出个体差异,避免训练初期多个气泡互相干扰。同时,气泡的初始不透明度被设得很低(约0.18),保证光度梯度能穿透浅层气泡到达深层,初始位置则偏向第一个参考相机的正前方,确保早期梯度有效。

第三项是渐进式训练调度。训练从2个视角开始,逐渐增加到24个视角,让模型先建立双目立体视差的基础再面对多视角冗余。压缩比r也从1.0按余弦曲线降低到最小值,并在每个训练步骤中从当前最小值到1.0之间随机采样,让模型习惯不同压缩程度下的工作,使r成为真正的推理时可调参数。最小压缩比的设置依据是rmin = 0.5√(2/N),因为场景的独特内容随视角重叠亚线性增长。

五、实验数据:用数字说话

研究团队在两个主要数据集上评估了ZipSplat:DL3DV(包含140个测试场景)和RealEstate10K(包含1600个测试场景),并分别在6、12、24个输入视角下进行测试,保留8个目标视角用于评估。

在DL3DV上,6个视角输入时,ZipSplat(无需相机位姿)的PSNR(峰值信噪比,数值越高图像质量越好)达到25.24 dB,而同样不依赖相机位姿的YoNoSplat只有24.10 dB,差距超过1.1 dB,且ZipSplat只使用了62K个Gaussian,YoNoSplat则用了301K个,约少用5倍。更值得关注的是,随着输入视角从6增加到24,ZipSplat的PSNR几乎稳定在24 dB上下,而YoNoSplat从24.10一路跌到22.01,DA3(同一骨干网络的像素对齐版本)从23.77跌到21.69。这意味着现有的像素对齐方法在输入视角增多时,气泡数量线性增长(从301K增到1.2M、从1.5M增到6.1M),质量却反而下降——大量重复观测不但没帮上忙,反而形成干扰。ZipSplat通过聚类合并冗余,在24个视角时只用249K个Gaussian,质量反超所有对比方法。

在RealEstate10K上,ZipSplat(无位姿)以26.20 dB超越YoNoSplat(24.99 dB)1.2 dB,并以62K个Gaussian超越需要真实位姿的DepthSplat(393K个Gaussian,24.16 dB)2 dB。提供真实位姿时,ZipSplat进一步提升至27.19 dB。

研究团队还测试了跨数据集泛化能力,将仅在DL3DV和RealEstate10K上训练的ZipSplat零样本应用于Mip-NeRF360和ScanNet++。在32至128个视角的大规模输入下,ZipSplat在Mip-NeRF360上从21.72 dB稳步提升到22.29 dB,而DA3从20.94跌到20.19,AnySplat落后ZipSplat 2.3至2.7 dB。在ScanNet++上,零样本条件下ZipSplat达到18.1 dB,远超YoNoSplat的16.01 dB。

ZipSplat还支持一种"令牌测试时优化":在拥有真实位姿时,冻结解码器,只优化场景令牌本身(而非所有Gaussian参数),50步优化(在单块4090 GPU上约需3秒)就能额外提升约5 dB的PSNR,完整收敛可提升5.8 dB并将LPIPS(感知相似度损失)减半。

六、压缩比的"旋钮效应":一个模型走天下

ZipSplat最吸引人的特性之一是推理时的可调节性。通过调整压缩比r,单个训练好的模型可以生成从62K到1.3M个Gaussian的各种规模重建,在质量与效率之间任意取点,无需重新训练。

在质量-效率曲线上,ZipSplat明显优于所有对比方法:要达到YoNoSplat的质量只需其1/33的Gaussian数量,使用6倍更少的Gaussian可额外获得约2.1 dB的PSNR提升。

压缩的视觉效果也很有说服力:在1×、2×、4×压缩下渲染结果依然清晰锐利,而令牌分布图则显示出越来越粗糙的空间覆盖——模型并非简单地模糊图像,而是保留了最有价值的信息。

不同的令牌选择策略对压缩效果有影响。在温和压缩(r≥0.6)时,K-means聚类、均匀步长采样和随机采样三种方法的差距在0.1 dB以内,因为后续的交叉注意力能从原始令牌中找回足够的细节。但在激进压缩(r=0.1)时,K-means以0.45 dB领先均匀步长,以0.79 dB领先随机采样。原因在于,K-means在聚类时会跨越多个视角合并冗余令牌——在24视角、r=0.1时,每个K-means聚类平均横跨4.2个视角,而不是像随机采样那样直接丢弃整个视角。

在极端压缩(r=0.01)下,ZipSplat会出现明显的失效:令牌数量过少,无法覆盖整个场景,渲染图像出现大片空缺。这是系统的边界条件,在实际使用中很容易避免。

七、效率数据:速度与内存的真实表现

在单块NVIDIA 4090(24GB显存)上的测试显示,24个视角输入时,ZipSplat的完整前向推理在0.8秒内完成,峰值显存低于8.1GB,处于完全实用的范围。令牌压缩和Gaussian解码本身的计算量微乎其微,系统瓶颈始终在多视角骨干网络。

随着视角数增加到192,使用视角依赖压缩调度时,峰值显存控制在17GB(而YoNoSplat已达24GB上限),生成约102K个Gaussian(9.3MB存储,401 FPS渲染速度),相比固定r=1.0的200万Gaussian(183MB,40 FPS)实现了10倍渲染加速和20倍存储节省。24个视角时,调度压缩生成36K个Gaussian,占用3.3MB,渲染达685帧/秒,完全满足实时移动端或网页端展示需求。

八、消融实验:每个设计选择都有意义

研究团队通过系统性消融验证了各设计选择的贡献。在骨干网络完全相同的前提下,ZipSplat的令牌解码器相比像素对齐解码器,在6/12/24视角下稳定提升1.5至2.7 dB,且Gaussian数量减少13至25倍,这一改进在VGGT和DA3两种骨干网络上都成立,说明性能提升确实来自令牌化设计本身,而非骨干网络的差异。

每个令牌生成的Gaussian数量G的选择,质量在G=32时已趋于饱和:G=64比G=32仅多0.03 dB,而Gaussian数量翻倍;G=8比G=32少0.19 dB,但Gaussian数量只有四分之一。综合考虑,G=32是最合适的平衡点。

在初始化和损失函数方面,耦合初始化贡献最大(去掉后下降0.25 dB),不透明度偏置和位置偏置各贡献约0.14至0.15 dB,深度损失贡献约0.19 dB。而单向Chamfer几何损失属于训练稳定性的必要条件——去掉它会导致训练不稳定甚至发散,无法单独量化其贡献。

说到底,ZipSplat做了一件在三维重建领域颇为罕见的事:它把"用多少个基本单元描述一个场景"这件事从一个由相机分辨率决定的固定值,变成了一个由场景内容驱动的自适应量。这意味着系统终于开始关心"这个场景真正需要多少表达力",而不是"相机拍了多少像素"。

对于普通用户来说,这项技术的潜在影响很实在:未来的手机3D扫描应用可以用更少的存储空间和更快的处理速度生成更高质量的场景模型;增强现实应用可以在资源受限的设备上运行更复杂的场景;大规模三维地图数据库的存储和传输成本可以大幅下降。研究团队还指出了两个值得进一步探索的方向:一是在每个Gaussian上附加语义特征用于场景理解(令牌化后的紧凑表示使特征存储成本大幅降低);二是将令牌聚类机制推广到四维动态场景,跨时间维度合并冗余观测。

归根结底,这项工作提醒我们:在信息处理中,"更多"并不总是"更好",找到恰当的表达粒度往往比一味堆砌更有价值。有兴趣深入了解技术细节的读者,可以在arXiv平台通过论文编号2606.05102查阅完整原文。

Q&A

Q1:ZipSplat和现有三维重建方法相比,速度有多快?

A:ZipSplat在24个输入视角下,完整前向推理在0.8秒内完成,生成的场景可以达到685帧/秒的实时渲染速度,存储只需3.3MB。对比YoNoSplat在192个视角时产生的9.6M个Gaussian(539MB、8.9 FPS),ZipSplat用视角依赖压缩调度只生成102K个Gaussian,速度快约45倍,存储少约20倍。

Q2:ZipSplat用的K-means聚类和随机采样有多大差距?

A:在温和压缩(保留60%以上令牌)时差距极小,不超过0.1 dB,因为后续的交叉注意力能补回丢失的细节。但在激进压缩(只保留10%令牌)时,K-means比随机采样高出0.79 dB。原因是K-means能跨多个视角合并冗余令牌,而不是随机丢掉整个视角的信息。

Q3:ZipSplat需要相机位姿信息才能工作吗?

A:不需要。ZipSplat可以在完全不知道相机位置和朝向的情况下运行,这种模式下在RealEstate10K上达到26.20 dB,已经超越了大多数需要相机位姿的对比方法。如果提供真实相机位姿,性能会进一步提升到27.19 dB,但位姿带来的增益相对有限,说明模型本身的场景理解能力较强。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。