当前位置: 首页 » 资讯 » 科技头条 » 正文

大模型在具身推理上「翻车」了?4496 道题全面揭示短板

IP属地 中国·北京 机器之心Pro 时间:2025-10-28 12:20:45



祁煜,2023年本科毕业于北京大学信息科学技术学院。目前为美国Northeastern University在读博士生,研究方向为机器人与机器学习, 具身智能, 在 CVPR、ICML、CoRL 等顶级会议中发表过论文。

具身智能是近年来非常火概念。一个智能体(比如人)能够在环境中完成感知、理解与决策的闭环,并通过环境反馈不断进入新一轮循环,直至任务完成。这一过程往往依赖多种技能,涵盖了底层视觉对齐,空间感知,到上层决策的不同能力,这些能力便是广义上的具身智能。

已经有很多优秀的工作把多模态大语言模型(MLLMs)部署在具身智能的不同应用上。尽管已经有不少相关工作评估过他们具身智能的潜力,但主要集中在子领域上,比如给点(Pointing),空间推理(Spatial Reasoning)等等,也有一些工作在仿真里定义任务评估他们的性能,比如EmbodiedBench等,但是他们并没有把一个任务切分成一步步的原子技能,也就无法判断出到底是哪个细粒度的能力导致一个任务的失败。

BEAR基准

为了系统评估MLLM在具身智能的各个子能力,美国东北大学联合香港中文大学,哈佛大学,提出了BEAR基准,并且提供了详细的错因分析和算法提升。



Arxiv链接:https://arxiv.org/abs/2510.08759Huggingface链接:https://huggingface.co/papers/2510.08759项目主页:https://bear-official66.github.io/



BEAR涵盖了4,469个图片-视频-文字的VQA。BEAR涵盖6个大类,其中包括5个基础类别,包括给点(Pointing), 给检测框(Bounding Box), 空间推理(Spatial Reasoning),任务规划(Task Planning),并且在每个类别下面还有不同子技能,如给点分为普通物体给点,空间关系给点和局部给点,共分为14个技能,见下图。除此之外,我们引入第六个长程推理类别,首次将具身智能的任务切分为以14个不同技能划分的步骤,涵盖了智能体在完成一个任务中所需要具备的技能。



测评实验


实验部分,作者全面测量了20个不同的MLLM,并且测量了Direct和CoT不同的prompt, 而且将常见的test-time-scaling methods都进行了实验,得出以下有趣的结论:

多模态大模型并不具备具身智能,目前在BEAR基准上表现最好的模型,GPT-5,也仅仅有52%的成功率。通常情况,闭源模型比开源模型表现好。但是部分开源模型拥有很强的潜力,如InternVL系列模型,在BEAR基准上超过了GPT-4o, Claude等模型。



Chain-of-thought在很多子能力在闭源模型上起到一致的负面作用,比如给点和空间推理能力。作者分析给点是一个直接的表达方法,模型只需要输出一个正则之后的x和y,过度的推理给模型引入不必要的干扰。同时,人们在进行空间推理的时候常常使用“直觉”,引入推理链有时会使模型引入一些错误的空间表达和位置关系,在推理最终答案的时候起到了负面作用。




细粒度错因统计


更进一步地,作者对GPT-4o的每一个子能力都进行了错因统计,分析显示了如下几个有趣的发现:

模型视觉全能能力不足是多个类别的主要瓶颈。具体表现为模型无法细致进行language grounding, 无法判断轨迹走向,无法理解图片中发生的动作。模型3D能力不足主要体现在无法判断第一人称下的方向(左右关系),并且常常搞混相机在连续帧之间的移动走向。对于长程推理,与高层规划(planning)相比,底层感知和空间推理仍然是主要瓶颈,错误占比高达88%。



BEAR智能体设计全面提升大模型的具身能力


基于上面的发现,作者团队意识到,增强模型的视觉能力,可以全面提高模型的具身推理能力。在多模态领域,已经有一些工作通过画辅助线和教会模型使用工具用来求解数学问题。受这样工作的启发,作者开发了BEAR-Agent,这是一个可对话的多模态智能体,主要通过提供工具和做辅助线的方式增强模型的视觉推理能力,进而提升模型的具身推理能力。作者选取了表现最好的开源模型和闭源模型,InternVL3-14B和GPT-5,BEAR-Agent可以显著提高他们在BEAR上的performance。





仿真测试


进一步地,作者基于Maniskill用Franka-panda搭建了桌面的操作环境,并且测试了3类任务,共12个语言指令。我们的实验结果表明,BEAR-Agent提升了20.17% MOKA在桌面操作环境上的表现,这表示着BEAR-Agent对Embodied Agent的潜力。



本篇文章重点对多模态大模型在具身推理的多个任务上进行评测和对失败进行归因分析,并且提供了详细的失败测评,并且设计Agent算法进行改进。作者希望分析结果有利于多模态大模型和具身智能在未来的迭代。非常欢迎感兴趣的老师同学们联系作者团队进行进一步交流!

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新