当前位置: 首页 » 资讯 » 科技头条 » 正文

ICML 2026 | 北大提出的APEIRIA,打破了3D MLLM黑盒推理困境

IP属地 中国·北京 编辑:吴俊 机器之心 时间:2026-06-24 14:14:59

本文的第一作者为北京大学王选计算机研究所博士生莫文韬,通讯作者为博士生导师刘洋。团队近年来在 TPAMI、CVPR、ICCV、ICML 等顶会上有多项代表性成果发表,多次荣获多模态感知和生成竞赛冠军,和国内外知名高校、科研机构广泛开展合作。

本文提出了一个面向 3D 空间推理的新框架 —— APEIRIA

现有 3D 空间推理方法长期面临一个核心矛盾:3D 多模态大模型(3D MLLM)能够理解复杂自然语言和开放词汇概念,但推理过程往往是黑盒的,缺乏可解释的空间验证;神经符号 3D 方法虽然能够通过程序化步骤进行透明推理,却受限于封闭词表、固定概念模块和难以获取的过程监督,难以扩展到真实世界的复杂指令

因此,本文关注的问题可以概括为:能否让 3D MLLM 继承神经符号方法的透明推理,又保留大模型的开放语义能力?

为弥合这一鸿沟,APEIRIA 提出将神经符号程序中的系统化空间推理模式蒸馏进 3D MLLM。本文设计了一个三阶段课程学习框架:首先通过 3D 感知对齐对齐物体视觉 - 几何特征与语言空间,使模型具备基本的物体识别、属性理解和定位能力;随后通过 CoT-SFT,将神经符号程序的可验证执行轨迹转换为自然语言思维链,作为过程监督信号教会模型进行查询拆解和逐步空间验证;最后通过 CoT-RL 将这种推理模式扩展到开放词汇概念和复杂嵌套指令。

APEIRIA 在多个 3D 空间推理基准测试上取得了强劲表现,超越了当前主流 3D MLLM 基线方法,展现出良好的开放词汇泛化能力和 sim-to-real 推理迁移潜力。

此外,APEIRIA 保留了神经符号方法中关键的模块化性质:由于推理过程显式区分规划、感知和执行,模型可以在无需重新训练的情况下接入更强的外部规划器或感知模块,实现即插即用的推理与感知增强,展示了该框架在未来具身智能系统中的持续升级潜力。

目前该研究已被 ICML 2026 正式接收,相关代码与模型已全部开源。

论文标题:Distilling Neuro-Symbolic Programs into 3D Multi-modal LLMs

关键词:3D MLLM、Neuro-Symbolic Reasoning、Chain-of-Thought、3D Spatial Reasoning、Reinforcement Learning

论文链接:https://arxiv.org/abs/2606.01215

代码链接:https://github.com/oceanflowlab/APEIRIA

项目主页:https://matthewdm0816.github.io/Apeiria_Open/

打破黑盒范式:APEIRIA 连接 3D MLLM 与神经符号推理

本文提出一个 3D 空间推理的新框架 APEIRIA,将神经符号程序的推理轨迹蒸馏进 3D MLLM,既能理解开放世界的自然语言,也能给出可解释的透明空间推理过程。 当前 3D 空间推理方法沿两条路线发展,各有明显短板。

3D 多模态大模型(3D MLLM)依托 LLM 的语义能力处理开放词汇表达,如 「cozy chair」、「messy desk」等真实用户描述,但推理过程是黑盒式的端到端映射 —— 一旦答错,很难判断问题出在物体识别、空间关系理解,还是组合推理本身。神经符号 3D 方法将问题拆解为可执行程序,通过 filter、relate 等模块逐步完成空间验证,具有良好的可解释性与组合泛化能力。然而,它们依赖闭集的概念网络和密集的程序执行过程监督,难以处理开放词汇,也难以扩展到真实世界的复杂自然语言指令。

APEIRIA 的核心观察是:神经符号程序中最值得迁移的并非某个具体概念检测器,而是其中蕴含的空间推理模式,即如何拆解查询、定位候选物体、逐步验证空间关系、将中间状态组合为最终答案。基于这一洞察,本方法提出 APEIRIA,一种神经符号 3D MLLM,将符号程序的可验证执行轨迹转换为自然语言思维链,让 3D MLLM 以可读、可检查的方式进行空间推理,同时保留大模型原有的开放语义能力。

下面的图 1 可视化了 APEIRIA 与先前 3D MLLM 和神经符号方法的对比。

我们的神经符号 3D MLLM 方法 APEIRIA(下)结合了 3D MLLM(上)与传统神经符号方法(中)的优势:相比黑盒 3D MLLM,它保留了透明的 3D CoT 推理过程;相比传统神经符号方法,它能处理复杂自然语言与开放词汇概念。

从程序到思维链:三阶段课程学习框架

APEIRIA 采用三阶段课程学习,逐步将神经符号推理模式注入 3D MLLM:

阶段一:3D 感知对齐 —— 先教模型「看见」3D 世界模型通过物体识别、属性理解、位置预测和描述生成等任务,将 3D 视觉 - 几何特征对齐到 LLM 的文本空间,建立基本的 3D 场景理解能力。

阶段二:符号推理注入 —— 再教模型「按步骤思考」。 从神经符号程序中抽取经过验证的执行轨迹,序列化为自然语言推理链。每一步不仅包含计划,还包含具体执行结果,例如物体 ID、位置、尺寸、空间关系判断,从而为模型提供精确的过程监督。

阶段三:CoT-RL—— 最后教模型适应真实开放指令。在真实数据中,完整的逐步过程监督通常无法获得。本方法通过强化学习,仅利用最终的 3D 空间推理结果和格式约束作为奖励信号,将前一阶段习得的推理模式扩展到开放词汇和更深层嵌套的自然语言指令。

APEIRIA 的三阶段课程学习流程:3D 感知对齐 → 符号推理注入 → 思维链强化学习。

与直接让模型「自由生成思维链」不同,APEIRIA 的 CoT 从可验证程序轨迹中蒸馏而来,因此具有明确的空间锚点:每个中间步骤都绑定到具体物体 ID、坐标和尺寸。这使得推理过程不仅可读,还能保持神经符号 3D 推理方法「模块化」的好性质,从而支持后续的模块替换和增强,且无需重新训练模型。

兼具开放语义与透明验证:APEIRIA 树立 3D 空间推理新标杆

表 1 的实验结果显示,APEIRIA 在多个 3D 空间推理基准上取得了强劲表现,在 ScanRefer 和 Multi3DRefer 上均超过或匹配当前强 3D MLLM 基线方法,结合模块化感知增强后,性能进一步全面超越现有 3D 空间推理方法。

表 1:ScanRefer / Multi3DRefer 主结果。APEIRIA 在两个基准上均超越或匹配当前强 3D MLLM 基线,模块化增强后进一步提升。

此外,如表 2 所示,在只在合成指令上训练的设置下,本方法可以零样本迁移到其从未见过的自然语言指令上,表明其学到的是可迁移的推理模式而非封闭词表内的概念匹配,展现出良好的开放词汇泛化能力。

表 2:开放词汇泛化实验。APEIRIA 仅在合成指令上训练,即可在自然语言指令上零样本超越有监督基线

表 3 中的消融实验进一步验证了三阶段设计的必要性:去掉 CoT-RL 阶段,两个基准上均出现显著性能下降;若跳过符号推理注入、直接从感知对齐进入 RL,退化更为明显。这说明符号程序提供的「推理热启动」对最终性能有重要贡献。没有结构化的推理语法,模型很难仅靠 RL 在巨大搜索空间中探索出稳定的 3D 推理路径。

表 3:逐步去除 CoT-RL 和符号推理注入阶段的消融实验,验证三阶段课程学习中每一步的必要性

模块化增强:即插即用的感知与推理升级

APEIRIA 保留了神经符号方法的一个关键优势:模块化。得益于思维链显式解耦了规划(planning)与执行(execution),本方法可以在推理时直接替换其中的模块而无需重训模型。如表 4 中所示,将感知模块替换为更强的 SegDINO3D 后,在各个 3D 推理基准测试上都达成了显著性能提升。这也说明当前性能瓶颈更多来自视觉感知而非推理规划,而未来更强的 3D 感知模块可以直接为 APEIRIA 带来收益而无需重新训练模型

表4:模块化增强实验。无需重训模型,独立替换规划模块或感知模块均可带来性能提升,验证了 APEIRIA 推理-感知解耦设计的即插即用特性与持续升级潜力

此外,如图 3 中所示,定性分析实际推理过程中的思维链显示,APEIRIA 也展现出自然涌现的推理行为。面对「this beige chair is next to the coat rack and to the left of the table and lamp」这类多条件描述,模型会先分别定位各参照物,再自发组合 intersection 与 union 等逻辑操作来筛选同时满足多个空间约束的目标。这说明模型并非简单记忆程序模板,而是在一定程度上内化了空间逻辑的组合规则。

APEIRIA 的显式推理链示例,展示涌现出的 intersection / union 推理行为

总结:迈向可解释、可升级的 3D 空间推理智能体

APEIRIA 提供了一条连接 3D MLLM 与神经符号推理的新路径:通过从符号程序到自然语言思维链的推理蒸馏,让模型兼具开放语义理解与透明的空间推理能力。三阶段课程学习的设计使模型逐步从基础感知走向可验证推理,再到开放世界泛化,在多个基准上取得了超越黑盒 3D MLLM 和传统神经符号方法的表现。

这项工作也为具身智能系统提供了启发:在机器人导航、室内交互等场景中,模型不仅需要给出答案,更需要说明推理依据、定位潜在错误,并随着感知与规划模块的升级而能够持续进化。APEIRIA 正是在这一方向上迈出的坚实一步。

标签: 空间 模型 符号 神经 方法 程序 过程 阶段 物体 能力 概念 模块 词汇 博士生 指令 模块化 作者 课程 性能 定位 轨迹 黑盒 语义 思维 模式 规划 可验证 全部 框架 关系 关键 传统

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。