SIGGRAPH Asia 2025 | 让3D场景生成像「写代码」一样灵活可控

IP属地中国·北京 机器之心Pro 时间：2025-11-14 20:10:59

随着生成式 AI 的快速发展，从文本生成图像、视频，到构建完整的三维世界，AI “创造空间” 的能力正以前所未有的速度突破边界。然而，现有 3D 场景生成方法仍存在明显局限：模型往往直接输出每个物体的几何参数（位置、大小、方向等），结果容易出现漂浮、重叠、穿模等问题；场景结构缺乏逻辑一致性，难以编辑或复用，更无法像程序那样精确控制空间关系与生成逻辑。
想象这样一个画面：你输入一句话 ——
“在黄昏的码头上，一位渔夫坐在木椅上，旁边是一盏摇曳的灯。”
AI 不再只是 “摆放” 这些元素，而是生成一段可执行的三维构建脚本：从灯光的照射角度到渔夫与木椅的相对位置，都由程序逻辑自动推导与控制。
这种 “从语言到程序再到场景” 的新范式，正是由布朗大学（Brown University）与加州大学圣地亚哥分校（UC San Diego）的研究团队提出的 Procedural Scene Programs（PSP）框架。
与传统的几何直接生成方法不同，PSP 让 AI 不再是 “画” 出一个世界，而是像程序员一样 “写” 出世界的生成逻辑。模型输出的不是静态的三维网格，而是一段可运行的场景脚本，具备高度的可编辑性、可复用性与结构可控性—— 为 AI 世界构建带来了新的语言与思维方式。
该研究已被计算机图形学顶会 SIGGRAPH Asia 2025 接收。

论文题目：Procedural Scene Programs for Open-Universe Scene Generation: LLM-Free Error Correction via Program Search作者：Maxim Gumin, Do Heon Han, Seung Jean Yoo, Aditya Ganeshan, R. Kenny Jones, Kailiang Fu（傅楷量）, Rio Aguina-Kang, Stewart Morris, Daniel Ritchie论文链接：https://arxiv.org/abs/2510.16147
方法
研究团队提出的 Procedural Scene Programs（PSP）是一个两阶段的程序化场景生成系统。它的核心思想是：让 AI 不再直接输出三维几何，而是先生成可执行的构建脚本，再通过程序执行构建出完整场景。
整个系统由两大关键组件组成：
1.Procedural Scene Description Language（PSDL）—— 用来 “写” 出生成世界的程序语言；
2.Program Search 纠错模块—— 在程序执行后自动检测并修复几何错误。
PSDL 负责 “生成逻辑”，Program Search 负责 “结果修正”。这种 “先生成、再调试” 的机制，使得 AI 不仅能自动搭建三维场景，还能在程序层面自我修复错误，从而生成结构合理、物理一致的世界。
1. 程序化生成语言 PSDL：让 AI 写出世界的规则
传统的三维场景生成模型通常直接预测每个物体的位置、大小和方向。然而，由于 AI 并不具备完善的空间想象与物理推理能力，这种方法往往会导致物体漂浮、重叠等问题。为此，PSP 引入了 Procedural Scene Description Language（PSDL），让模型不再 “直接想象空间”，而是以程序逻辑来表达空间关系。PSDL 嵌入在 Python 中，支持函数、循环、条件与变量绑定，使模型能够通过编写规则的方式来定义场景的结构与布局。
例如：
foriin range (3):
place ('chair', around='table', angle=i*120)
这样的语句不仅表达了 “放三把椅子” 的结果，也清晰地定义了 “围绕桌子等角放置” 的空间关系。这种形式让生成过程具备了可编辑、可扩展、可复用的特性，使模型真正具备了 “程序化建模” 的能力。

2. 纠错模块 Program Search：自动修复几何错误
在生成完成后，PSP 会通过 Program Search 模块对场景进行结构与几何一致性检测。与传统需要反复调用大模型修正错误的方式不同，PSP 直接在程序空间中搜索修复方案，无需再次推理。
研究团队定义了多种几何一致性指标，如物体重叠率、支撑关系和遮挡情况。当检测到异常时，系统会自动替换变量或微调表达式，从程序层修复问题。
实验结果显示，PSP 平均只需约 7 次程序修改即可修复大多数错误，且完全无需重新调用 LLM。这种符号级修正机制让生成过程更稳定、更具可解释性，并显著提升了三维场景的物理合理性。

效果与对比
在 70 个开放世界场景提示（涵盖自然、建筑、幻想等多样主题）上，研究团队对比了三种代表性方法：声明式布局系统 DeclBase、约束驱动的 Holodeck，以及本文提出的 Procedural Scene Programs（PSP）。
结果显示，PSP 在人类主观评测中显著领先 ——在与 DeclBase 的对比中获得 82.9% 的偏好率，与 Holodeck 的对比中则达到 94.3%。同时，PSP 的生成速度也更快：从文本到完整场景平均仅需约 38 秒，而 DeclBase 与 Holodeck 分别需要 40.8 秒与约 42 秒。

除了人类主观评测外，研究团队还提出了一种基于多模态 LLM 的自动化评估方法，用于衡量生成场景在语义一致性与视觉合理性上的表现。在 PSP 与 DeclBase、Holodeck 的对比中，该自动评测方法分别给出 77.1% 与 90.0% 的 PSP 偏好选择率，与人类主观偏好（82.9% 与 94.3%）趋势一致，证明了其在未来三维场景生成质量评测中的可靠性与参考价值。

意义与展望
这项研究揭示了一个重要趋势：未来的 3D 场景生成，可以不再只是从文本到几何的单向映射，而是一个“程序写世界（Program the World）”的过程。
通过 Procedural Scene Programs（PSP），AI 的 “想象力” 可以与 “编程逻辑” 深度融合：它既继承了命令式生成的灵活性与层次表达能力，又以符号化修正机制弥补了大模型在空间推理与逻辑一致性上的脆弱。这一范式转变，让模型不只是理解世界的观察者，而成为主动构建世界的开发者。
正如论文作者所言：
“Our approach re-establishes the strengths of imperative scene layout programs while overcoming their fragility to LLM errors.”
PSP 通过程序语言与自动纠错机制的结合，为 3D 内容生成带来了前所未有的可控性与自解释性。无论是虚拟城市、游戏关卡，还是具身智能的视觉环境，这一框架都为 AI 世界的构建提供了新的逻辑与基础。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

刘强东、张一鸣疯狂砸钱抢人，动真格了

英伟达营销迎来新掌舵人：挖角谷歌云核心高管，剑指全球品牌升级

字节“上新”AI视频应用，正面迎战OpenAI、阿里

2026年企业如何选择大模型GEO优化公司？五家主流服务商横向评析

2025高德空间智能开发者大赛在苏州圆满收官

市值登顶仍不够英伟达请来谷歌“营销老将”提升品牌价值

全站最新

刘强东、张一鸣疯狂砸钱抢人，动真格了

英伟达营销迎来新掌舵人：挖角谷歌云核心高管，剑指全球品牌升级

字节“上新”AI视频应用，正面迎战OpenAI、阿里

2026年企业如何选择大模型GEO优化公司？五家主流服务商横向评析

热门推荐

刘强东、张一鸣疯狂砸钱抢人，动真格了

英伟达营销迎来新掌舵人：挖角谷歌云核心高管，剑指全球品牌升级

字节“上新”AI视频应用，正面迎战OpenAI、阿里

2026年企业如何选择大模型GEO优化公司？五家主流服务商横向评析

2025高德空间智能开发者大赛在苏州圆满收官

市值登顶仍不够英伟达请来谷歌“营销老将”提升品牌价值

76岁阿姨当场下单的秘密：穿它旅游爬山，腿脚仿佛回到20岁？

Stellantis停产插混Jeep牧马人和大切诺基，未来将转向油混、增程

新加坡初创公司Flint推出“纸质电池”，寿命与传统电池相当

美国火星样本取回任务因资金问题被搁置

OpenAI上线健康助理，每周2.3亿人AI“看病”背后

OpenAI ChatGPT被曝开辟求职新赛道：AI打磨简历、规划职业路径等

三星Galaxy S26+手机通过认证：额定电池容量4755mAh

“物理AI”成CES 2026主角，报道称机器人进入寻常百姓家仍需时日

DeepSeek V4爆春节登场！四大杀招突袭全球编程王座，Claude危