![]()
这项由清华大学人工智能学院王盛元、清华大学深圳国际研究生院郑智衡,以及清华大学电子工程系商宇等多位研究者联合完成的突破性研究,于2025年11月发表在计算机视觉领域顶级期刊上,论文编号为arXiv:2511.18005v1。感兴趣的读者可以通过该编号查询完整论文。
当我们在电脑上玩城市建设游戏时,总是惊叹于那些精美逼真的虚拟城市。但你是否想过,如果有一天,计算机能够像经验丰富的城市规划师一样,自动创造出与真实世界几乎完全一致的3D城市,那会是怎样的场景?清华大学的研究团队刚刚让这个看似科幻的想法变成了现实。
他们开发的RaiseCity系统就像一位拥有超能力的建筑师,能够仅凭真实世界的地理信息和街景照片,就在计算机中重新"建造"出一座完整的城市。这不是简单的复制粘贴,而是真正理解城市结构、建筑风格和空间布局后的智能重构。更令人惊叹的是,生成的虚拟城市不仅外观逼真,连建筑物的纹理细节、道路网络的复杂连接,甚至是街头的路灯、交通标志等小物件都应有尽有。
这项研究的革命性意义在于,它首次让计算机具备了像人类城市规划师一样的"智慧"。传统的3D城市建模需要大量专业人员花费数月甚至数年时间,而RaiseCity能在相对较短的时间内自动完成这一切。更重要的是,生成的城市不是虚构的,而是基于真实世界数据的精确重现,这为自动驾驶汽车训练、城市规划模拟、虚拟现实体验等众多领域开辟了全新可能。
研究团队采用了一种全新的"智能体"设计理念,让AI系统能够像人类专家一样分步骤、有计划地完成复杂任务。系统首先充当"侦察兵",收集和分析真实世界的地理数据;然后变身为"建筑师",设计和想象建筑物的完整外观;接着成为"工程师",将2D设计转换为3D模型;最后扮演"城市规划师",将所有元素有机组合成完整的城市景观。整个过程还配备了"质量监督员",持续检查和改进每个步骤的输出质量。
实验结果显示,RaiseCity生成的3D城市在视觉质量、空间准确性和真实度方面都大幅超越了现有方法,在综合感知质量评估中获得了超过90%的胜率。这意味着大多数人在看到RaiseCity生成的虚拟城市时,都认为它比其他方法生成的城市更真实、更美观。
一、智能建筑师的工作流程
RaiseCity的工作过程就像一个经验丰富的建筑师团队在协作完成一个大型城市项目。整个系统分为六个相互配合的工作阶段,每个阶段都有明确的职责和目标。
首先是"规划阶段",系统像项目经理一样制定整体工作计划。它将复杂的城市建设任务分解为若干个可管理的小任务,并决定每个任务的执行顺序和方式。这种分而治之的策略确保了每个细节都能得到充分关注,同时避免了因任务过于复杂而导致的混乱。
接下来是"感知阶段",系统化身为"城市调研员",深入收集真实世界的城市信息。它会从OpenStreetMap等地理信息系统中获取建筑物位置、道路网络、植被分布等基础数据,同时通过在线地图API获取对应区域的街景全景图像。但这些原始数据往往包含许多干扰因素,比如临时停放的车辆、施工现场、茂密的植被遮挡等,系统需要像有经验的调研员一样,从复杂的信息中筛选出真正有用的部分。
"想象阶段"是整个流程中最具创新性的部分。由于街景照片通常只能捕捉到建筑物的一个侧面,而且经常被各种物体遮挡,系统需要像人类建筑师一样,基于有限的信息"想象"出建筑物的完整外观。这里的"想象"并非随意臆测,而是基于对建筑学原理、城市规划规律和视觉美学的深度理解。系统会结合从OpenStreetMap获取的建筑轮廓和体积信息,推断建筑物的整体结构,然后生成一个完整、合理的建筑外观图像。
"反思阶段"就像一个严格的质量检查员,对前一阶段生成的建筑设计进行全面评估。它会从结构合理性、纹理真实性和美学质量三个维度进行评分,对于不符合标准的设计会要求重新制作。这种自我纠错机制有效避免了错误的累积,确保最终输出的质量。
"3D生成阶段"将2D的建筑设计图转换为真正的三维模型。这个过程类似于雕塑家根据设计图制作立体雕塑,不仅要准确还原建筑的几何形状,还要为其添加逼真的材质纹理。系统使用了先进的Hunyuan3D模型,能够生成高精度的3D网格模型和高质量的纹理贴图。
最后的"场景设计阶段"就像城市总规划师,将所有独立的建筑模型按照真实世界的空间关系组装成完整的城市场景。这不仅包括建筑物的精确定位和朝向调整,还涉及道路网络的建模、植被的分布、街头设施的布置,甚至是动态交通流的模拟。
整个流程的精妙之处在于各个阶段之间的紧密配合和相互验证。每个阶段都会为下一阶段提供必要的信息和约束条件,确保最终生成的城市既符合真实世界的地理布局,又具备足够的视觉真实感和细节丰富度。
二、从街景照片到完整建筑的智能重构
将一张普通的街景照片转换为完整的3D建筑模型,这个过程蕴含着令人惊叹的技术创新。传统方法往往只能简单地复制照片中可见的部分,但RaiseCity展现了一种更加智能的方法。
考虑这样一个场景:当我们站在街道上拍摄一栋建筑时,照片中通常只能看到建筑的正面,而且经常会被前景的树木、路灯或车辆遮挡。更重要的是,我们无法看到建筑的背面、侧面和顶部的完整情况。对于人类而言,我们可以根据建筑学常识和经验来推测建筑的整体外观,但让计算机做到这一点却是极大的挑战。
RaiseCity通过一种类似人类认知过程的方法解决了这个问题。系统首先会像经验丰富的建筑师一样分析可见部分的建筑特征,包括窗户的排列模式、外墙的材质纹理、建筑的总体风格等。然后,它会调用大量的建筑学知识和世界常识,推断出建筑物不可见部分的可能外观。
这个推断过程并非凭空想象,而是基于严格的逻辑和约束。系统会考虑建筑物的结构完整性要求,比如承重墙的分布、楼层的对称性等。同时,它还会参考从OpenStreetMap获得的建筑轮廓和高度信息,确保生成的建筑模型与实际的空间尺寸相匹配。
特别值得一提的是,系统具备了处理遮挡问题的能力。当街景照片中的建筑被树木或其他物体部分遮挡时,系统能够"透过"这些遮挡物,推断出被遮挡部分的建筑特征。这种能力来源于对大量建筑图像的学习,使系统能够识别和分离前景遮挡物与背景建筑。
为了确保生成建筑的质量,系统还引入了多重验证机制。每个生成的建筑图像都会经过结构合理性检查,确保建筑符合基本的物理定律和建筑学原理。纹理真实性评估则检查建筑表面材质的一致性和真实感。美学质量评估考虑建筑的视觉协调性和整体美观度。
如果某个建筑在任何一个评估维度上表现不佳,系统会自动重新生成,并提供详细的改进建议。这种迭代优化过程确保了每个建筑都能达到高质量标准。
整个重构过程的另一个创新点是对建筑周边环境信息的智能利用。系统不仅关注建筑本身,还会分析周围的城市环境,比如相邻建筑的风格、街道的宽度、植被的分布等,以此来推断目标建筑应该具有的特征。这种上下文感知能力使生成的建筑更好地融入整体城市环境。
三、3D模型生成与纹理绘制的技术突破
从2D建筑设计图到真实感3D模型的转换过程,就像雕塑家将平面草图变为立体雕塑一样充满艺术性和技术挑战性。RaiseCity在这个环节展现了其技术实力的核心所在。
传统的3D建模往往需要专业建模师花费大量时间手工制作每一个细节,但RaiseCity实现了这一过程的完全自动化。系统采用了最新的Hunyuan3D技术作为核心引擎,这是一个专门为高保真3D生成而优化的先进模型。
3D几何形状的生成是第一个关键步骤。系统需要根据2D设计图中的视觉信息,推断出建筑物的三维几何结构。这个过程类似于考古学家根据平面图纸重建古建筑,需要对建筑的空间逻辑有深刻理解。系统会分析建筑的轮廓线、表面法线、深度信息等几何特征,然后构建出完整的3D网格模型。
生成的3D模型不仅要在形状上准确,还要在拓扑结构上合理。这意味着模型必须是一个封闭的、无漏洞的几何体,能够在各种3D软件和游戏引擎中正常使用。为了达到这个目标,系统配备了专门的后处理流程,能够自动检测和修复常见的几何错误,比如悬浮的几何片段、多余的地面平面等。
纹理绘制是另一个技术难点。简单地将2D图像贴到3D模型表面往往会产生严重的扭曲和不一致问题,因为3D表面的几何形状与原始2D图像的透视关系并不完全匹配。RaiseCity采用了智能纹理合成技术,能够根据3D模型的几何特征,生成与之完美匹配的纹理贴图。
这个纹理生成过程考虑了光照条件、材质属性、表面法线等多个因素。系统会分析原始2D图像中的光影效果,然后将这些效果适当地映射到3D模型的不同表面上。同时,它还能够为原本不可见的表面生成合理的纹理,比如建筑的背面和侧面。
质量控制在整个3D生成过程中起到了关键作用。系统会从多个角度渲染生成的3D模型,检查是否存在明显的几何错误或纹理问题。如果发现问题,它会自动调整模型参数或重新生成有问题的部分。
特别值得注意的是,RaiseCity生成的3D模型完全兼容标准的计算机图形学流水线,可以无缝导入到各种3D软件、游戏引擎和虚拟现实平台中。这种兼容性确保了生成的城市模型能够广泛应用于不同的下游任务,从建筑可视化到游戏开发,从城市规划到虚拟旅游。
生成过程的另一个亮点是对不同细节层次的支持。系统能够根据具体需求生成不同精度的模型,从适合远距离观看的简化模型到支持近距离检视的高精度模型,满足不同应用场景的性能要求。
四、真实世界空间布局的精确重现
将独立的3D建筑模型组装成完整的城市场景,这个过程就像玩一个巨大的3D拼图游戏,但难度要复杂得多。每个建筑不仅要放在正确的位置,还要确保朝向准确、尺寸合适,并且与周围环境协调一致。
RaiseCity在这个阶段展现了其对真实世界空间关系的深度理解。系统首先从OpenStreetMap获取精确的地理坐标信息,这些数据就像城市的"骨架",定义了每个建筑的基本位置和轮廓。但仅有这些信息还远远不够,因为真实的城市空间关系远比简单的坐标位置复杂。
建筑物的精确定位是一个多约束优化问题。系统需要确保每个建筑不仅位于正确的地理坐标上,还要考虑其与相邻建筑的相对关系。比如,商业街上的店铺通常会齐平排列,住宅区的房屋会保持适当的间距,而高层建筑周围会留出足够的空间用于绿化和停车。
建筑朝向的确定同样重要。在真实世界中,建筑的朝向往往遵循特定的规律:住宅倾向于朝南以获得更好的采光,商铺通常面向主要街道以吸引顾客,而工业建筑的朝向则主要考虑交通便利性。RaiseCity通过分析建筑类型、周围道路网络和街景照片中的视角信息,智能推断出每个建筑的最合理朝向。
尺寸匹配是另一个关键技术挑战。由于3D生成模型产出的建筑可能与真实尺寸存在差异,系统需要进行智能缩放以确保模型与实际建筑的尺寸相匹配。这个过程不是简单的等比例缩放,而是考虑了建筑的不同部分可能需要不同的缩放比例,以保持视觉的真实感。
除了建筑物本身,RaiseCity还能够重现城市的其他重要元素。道路网络的建模基于OSM数据,但系统会对这些原始数据进行显著优化,生成具有正确车道数量、路面纹理和交通标线的精细道路模型。
城市中的小型基础设施同样得到了细致的处理。路灯、交通标志、垃圾桶、长椅等街头设施都会根据真实城市的分布规律进行自动布置。系统通过分析街景图像,学习这些设施的典型分布模式,然后在生成的城市中复现这些模式。
植被的处理展现了系统对城市生态的理解。不同类型的植被会根据其生长习性和城市规划原则进行分布:行道树沿着街道有序排列,公园绿地集中分布大型乔木,而小型灌木则点缀在建筑周围。
动态元素的加入为静态的3D城市注入了生命力。RaiseCity集成了交通流模拟系统,能够在生成的道路网络上模拟真实的车辆和行人流动。这些动态元素不仅增强了视觉真实感,还为自动驾驶训练和城市交通规划提供了宝贵的仿真环境。
整个空间布局过程的最终目标是创建一个既符合地理真实性又具有视觉吸引力的虚拟城市。生成的城市不仅在鸟瞰图上与真实世界高度一致,在街道级别的体验上也能提供真实的城市漫游感受。
五、性能评估与质量验证
评估一个虚拟城市的质量就像评价一件艺术品一样复杂,需要从多个维度进行综合考量。RaiseCity的研究团队设计了一套全面的评估体系,既包含客观的数据指标,也融入了主观的感知评价。
空间布局准确性是评估的基础维度。研究团队使用了学习感知图像块相似度(LPIPS)和边缘交并比(E-IoU)等指标来量化生成城市与真实世界的空间对应关系。这就像用精密仪器测量建筑模型与原始蓝图的吻合度一样,能够客观反映系统在空间还原方面的准确性。实验结果显示,RaiseCity在这些指标上达到了与现有最佳方法相当甚至更好的表现。
视觉质量评估则关注生成城市的美观度和真实感。研究团队采用了LAION美学预测器来评估生成场景的艺术质量,这个工具能够模拟人类对图像美感的判断。同时,他们还使用了先进的视觉语言模型GPT-5作为"虚拟评委",从几何合理性、纹理质量、物体关系、整体视觉效果和保真度等多个角度对生成的城市进行评分。
在直接对比评估中,RaiseCity展现了压倒性的优势。当让评估模型在RaiseCity和其他现有方法生成的城市之间进行选择时,RaiseCity获得了超过90%的胜率。这意味着在绝大多数情况下,人们都认为RaiseCity生成的城市更真实、更美观、质量更高。
定性分析提供了更直观的质量对比。研究团队展示了RaiseCity与几个代表性基线方法的对比结果。早期的SGAM方法生成的城市存在明显的形状保真度差、纹理分辨率低、空间关系不合理等问题,而且其基于神经3D的方法限制了视角的自由度。CityDreamer虽然能从OSM数据生成3D城市场景,但建筑几何过于简化,纹理粗糙且经常不现实,难以包含植被或街边物体等辅助元素。
SynCity采用网格化策略,虽然单个网格的输出具有合理的视觉吸引力,但在网格边界处存在明显的不连续性,且这种基于网格的策略难以扩展到大场景,也难以整合细粒度对象或动态元素。CityCraft虽然能生成高精度建筑模型,但忽略了模型间的空间关系,导致不现实的冲突布局,而且其基于检索的方法无法创建连贯的、现实对齐的3D世界。
UrbanWorld在布局准确性和视觉保真度方面有所改善,但生成的3D几何粗糙,大多数建筑被呈现为基本的立方体或其组合,建筑纹理质量低,缺乏精细细节。
相比之下,RaiseCity在建筑模型精度、纹理保真度、整体布局合理性和准确性方面都显示出明显优势。生成的城市不仅单个建筑质量高,整体城市景观也更加协调一致。
智能体设计的有效性也得到了专门验证。研究团队比较了使用智能体自动选择和处理数据与使用人工策划数据的效果。结果显示,智能体在2D图像质量方面达到了最佳性能,在3D对象构建的纹理质量方面也优于所有其他方法。这证明了智能体设计在处理复杂多模态信息方面的优越性。
跨城市泛化能力测试表明,RaiseCity能够有效应用于不同的城市布局,无需特定任务调优。生成的场景在不同地理环境下都保持了高几何一致性和语义真实感,支持直接用于下游应用如城市可视化、自动导航和多智能体仿真。
六、实际应用前景与技术价值
RaiseCity的技术突破为众多实际应用领域开辟了新的可能性。这项技术的价值不仅体现在其技术先进性上,更在于它能够解决现实世界中的具体问题和需求。
自动驾驶技术是RaiseCity最直接的受益者之一。传统的自动驾驶系统训练依赖于大量真实道路数据的收集,这个过程不仅成本高昂,还存在安全风险和数据覆盖不全的问题。RaiseCity生成的高保真虚拟城市为自动驾驶系统提供了安全、可控的训练环境。在这些虚拟环境中,研究人员可以模拟各种罕见或危险的交通场景,比如恶劣天气条件下的驾驶、复杂路口的通行、突发事故的处理等,这些场景在现实中很难安全地重现。
城市规划领域同样能从这项技术中获得巨大价值。传统的城市规划往往依赖于平面图纸和简单的3D模型,规划师和市民很难直观地理解规划方案的实际效果。RaiseCity能够快速生成高质量的城市3D模型,让规划师能够在虚拟环境中测试不同的规划方案,评估新建筑对城市景观的影响,优化交通流线设计。更重要的是,这些逼真的3D模型能够帮助公众更好地理解和参与城市规划决策。
游戏开发和虚拟现实产业是另一个重要的应用领域。传统的游戏城市建模需要大量美术师手工制作每个建筑和场景元素,开发周期长且成本高昂。RaiseCity能够自动生成基于真实世界的游戏场景,不仅大大降低了开发成本,还能为玩家提供更加真实和熟悉的游戏环境。虚拟旅游应用也能利用这项技术,让用户在家中就能体验世界各地的城市风貌。
建筑可视化和房地产展示也是重要的应用方向。建筑师和开发商可以利用RaiseCity快速创建项目周边环境的3D模型,帮助客户更好地理解新建筑在实际环境中的效果。这种可视化不仅提高了设计沟通的效率,还能帮助发现潜在的设计问题。
科研教育领域同样受益匪浅。城市地理学、建筑学、交通工程等专业的学生和研究人员可以利用这些高质量的虚拟城市模型进行各种研究和学习活动。研究人员可以在虚拟环境中测试新的城市管理策略、交通优化算法、环境保护措施等,而无需在真实城市中进行昂贵且可能造成干扰的实验。
应急管理和灾害预防是另一个具有重大社会价值的应用领域。RaiseCity生成的精确城市模型可以用于灾害模拟,比如洪水扩散、火灾蔓延、地震影响等。应急管理部门可以利用这些模拟结果制定更有效的疏散路线、救援计划和防灾策略。
技术创新方面,RaiseCity展现的智能体框架为其他复杂AI任务提供了宝贵的设计思路。这种将大任务分解为小任务、每个任务由专门的AI模块处理、并通过反思和迭代不断优化的方法,可以应用于其他需要多步骤推理和创作的AI应用中。
数据生成和标注也是一个重要的技术价值点。RaiseCity能够生成大量高质量、多样化的城市场景数据,这些数据可以用于训练其他AI模型,比如目标检测、场景理解、导航算法等。与人工标注相比,这种自动生成的数据不仅成本更低,还能确保数据的一致性和准确性。
从商业价值角度来看,RaiseCity代表的技术方向有望形成新的产业生态。从3D内容制作服务到虚拟现实平台,从智慧城市解决方案到教育科研工具,都可能因为这项技术的普及而获得新的发展机遇。
RaiseCity的开源策略进一步放大了其技术价值。研究团队承诺开放完整的源代码和生成的3D城市资源,这将使更多的研究者和开发者能够基于这项技术进行创新,加速相关应用的发展和普及。
说到底,RaiseCity不仅仅是一项技术创新,更像是一个能够连接虚拟世界与现实世界的桥梁。它让计算机第一次具备了像人类规划师一样理解和重构城市空间的能力,这种能力的影响将远远超出技术本身,深入到我们生活、工作和娱乐的方方面面。无论是让自动驾驶汽车在虚拟城市中安全训练,还是让城市规划师在3D环境中测试设计方案,又或是让游戏玩家在逼真的虚拟世界中探险,RaiseCity都为这些应用提供了前所未有的技术基础。
随着技术的不断完善和应用的逐步推广,我们有理由相信,虚拟城市将在不久的将来成为我们数字生活中不可或缺的一部分。就像今天我们已经习惯了在线地图和导航服务一样,明天我们可能会习惯在虚拟3D城市中进行各种活动和体验。RaiseCity的出现,标志着我们向这个未来迈出了重要的一步。
Q&A
Q1:RaiseCity是什么?
A:RaiseCity是清华大学团队开发的AI智能体系统,能够自动根据真实世界的地理信息和街景照片生成逼真的3D虚拟城市。它就像一个拥有超能力的建筑师,能够理解城市结构并在计算机中重新"建造"出完整的城市,包括建筑物、道路、植被和各种城市设施。
Q2:RaiseCity生成的虚拟城市有多逼真?
A:实验显示RaiseCity在视觉质量评估中获得了超过90%的胜率,意味着大多数人都认为它比其他方法生成的城市更真实美观。生成的城市不仅建筑外观逼真,连纹理细节、道路网络、街头设施甚至动态交通都应有尽有,几乎达到了照片级的真实感。
Q3:RaiseCity可以用来做什么?
A:RaiseCity有广泛的应用前景,包括为自动驾驶汽车提供安全的虚拟训练环境、帮助城市规划师测试设计方案、为游戏开发提供真实的场景素材、支持虚拟旅游体验,以及用于建筑可视化、应急管理模拟、科研教育等多个领域。





京公网安备 11011402013531号