当前位置: 首页 » 资讯 » 科技头条 » 正文

中国科大、合工大等提出CAPER++:关节物体位姿感知迈向又快又稳

IP属地 中国·北京 机器之心Pro 时间:2026-05-26 20:27:26



在具身智能快速发展的今天,机器人已经不再满足于「看见」刚体物体,而是开始真正走向复杂环境中的交互与操作。从机械臂开柜门,到服务机器人整理抽屉,再到工业场景中的工具操作,大量真实世界目标都属于关节物体(Articulated Objects)。

对于具身智能系统而言,如何准确理解这些物体的空间姿态与运动状态,一直是迈向真实场景交互的关键难题。

然而,相比传统刚体,关节物体的位姿感知一直是一个更加困难的问题。这是因为,关节物体不仅存在多部件结构,还伴随着复杂的运动约束关系。不同部件之间并不是彼此独立,而是受到旋转关节、滑动关节等运动学结构的强约束。一旦遮挡、快速运动或观测残缺出现,传统方法就容易产生不符合物理规律的预测结果。

近年来,类级别关节物体位姿估计逐渐成为热点方向,却存在一个长期未被真正解决的问题:

如何同时兼顾「鲁棒性」与「实时性」?

一类方法依赖复杂后处理与优化过程,虽然精度较高,但速度难以满足实时需求;另一类方法强调端到端效率,却往往忽略运动学约束,在复杂场景下容易出现姿态抖动、结构不一致甚至长期跟踪漂移,即不稳定预测。

针对这一问题,来自中国科学技术大学、合肥工业大学等机构的研究团队提出了CAPER++:一个兼具高鲁棒性、高效率与实时追踪能力的统一关节物体位姿感知框架。该工作已被《IEEE Transactions on Pattern Analysis and Machine Intelligence》(TPAMI)接收。

CAPER++ 是一个端到端的一体化关节物感知方案:可自由切换到关节物体的静态位姿估计和动态位姿追踪。目前代码已开源,欢迎学术界和工业界试用。



论文标题: Probing Effective and Efficient Category-Level Articulated Object Pose Perception论文链接:https://ieeexplore.ieee.org/abstract/document/11480457项目主页:https://sites.google.com/view/caperplusplus仓库链接:https://github.com/zanly20/CAPERPlusPlus

引言

过去几年,机器人领域正在经历一个明显变化:研究重点开始从「识别物体」逐渐转向「理解物体如何运动」。对于真实世界中的机器人而言,仅仅知道一个物体「是什么」已经远远不够。机器人还需要理解它「如何被打开」「如何被推动」「哪些部分可以运动」,以及不同部件之间存在怎样的运动约束关系。

与传统刚体不同,关节物体往往由多个部件构成,并通过旋转关节或滑动关节连接。例如柜门会绕铰链旋转,抽屉会沿轨道滑动,机械臂不同连杆之间也存在复杂耦合关系。这意味着,机器人不仅需要感知物体整体姿态,还必须同时推理不同部件之间的相对运动状态。

然而,这一任务远比想象中困难。一方面,真实场景中普遍存在遮挡、快速运动以及残缺观测问题;另一方面,关节结构天然具有严格的运动学约束,而现有方法大多采用独立的 part-wise 建模策略,将各个部件分别预测后再进行组合。这种方式虽然直观,却容易忽略部件之间的关联关系,导致预测结果不稳定,甚至出现不符合物理规律的姿态结构。

更关键的是,许多高精度方法仍然依赖复杂优化或后处理过程。这类方法虽然能够提升估计精度,但推理效率往往难以满足真实机器人系统对于实时性的要求。

在 CAPER++ 这篇论文中,与传统「零件独立预测」的思路不同,CAPER++ 首次从「关节驱动」的视角重新建模关节物体。论文提出了一种 Joint-Centric(关节中心)层次化建模策略,将物体划分为 Root Part 与 Constrained Part,并显式引入运动学约束,使网络能够学习更加符合物理规律的位姿结构。

更进一步,CAPER++ 将位姿学习过程从传统欧式空间拓展至SE (3) 流形切空间,通过 Lie Algebra 建模旋转与位姿增量,有效缓解了传统旋转回归中的奇异性、不稳定优化以及几何约束破坏等问题。在保证高精度的同时,实现了无需后处理的端到端推理。

而在动态追踪场景中,CAPER++ 进一步提出 Proxy Canonicalization 与动态关键帧机制,将连续视频中的位姿追踪转化为相邻帧之间的增量学习问题,大幅降低长期漂移与时序抖动,使系统在复杂动态环境中依然保持稳定预测。实验结果显示,CAPER++ 不仅在多个合成、半真实与真实世界数据集上取得了当前最优性能,还实现了 50 FPS 实时推理速度,真正兼顾了「精度」「鲁棒性」与「实时性」三项长期难以统一的目标。

不再「零件各管各的」:

CAPER++ 如何重新理解关节物体?

现有大量关节物体位姿估计方法,本质上都遵循一种典型思路:先将物体拆分成多个部件(Part),再分别预测每个部件的位姿,最后进行组合恢复。

这种 Part-wise 建模方式虽然直观,却存在一个长期被忽略的问题:

现实世界中的关节物体,本来就不是「彼此独立」的。

例如柜门的运动一定围绕铰链展开,抽屉只能沿滑轨方向移动,机械臂不同连杆之间也始终受到运动链约束。换句话说,部件之间天然存在强耦合关系。但传统方法往往将这些部件视作相互独立的刚体进行预测,导致模型虽然「看到了局部」,却无法真正理解整体运动结构。

这也是为什么,在遮挡、残缺观测或者复杂运动场景下,传统方法容易出现结构不一致、姿态漂移甚至违反物理规律的预测结果。

针对这一问题,CAPER++ 提出了 Joint-Centric(关节中心)层次化建模策略,从「关节」而非「部件」视角重新定义关节物体位姿感知。

论文将整个关节物体划分为 Root Part 与 Constrained Part 两类结构。其中,Root Part 作为运动参考主体,负责建立整体空间坐标;而其余可运动部件,则不再被独立回归完整 6D 位姿,而是通过关节参数与运动状态进行约束恢复。



这一设计带来了一个关键变化:

模型不再直接学习「每个部件在哪里」,而是开始学习「部件为什么会这样运动」。

在具体实现上,CAPER++ 首先预测 Root Part 的位姿,并将输入点云变换到规范化关节空间(Canonicalized Articulation Space)。随后,网络进一步估计关节轴、旋转中心以及关节状态等运动学参数,并结合运动约束恢复其余部件姿态。

相比传统独立预测方式,这种关节中心建模不仅显著提升了结构一致性,还使模型在遮挡、快速运动以及复杂关节配置下保持更强鲁棒性。

为什么传统旋转回归总「不稳定」?

CAPER++ 把位姿学习搬进了 SE (3) 流形

在关节物体位姿估计中,真正困难的部分,往往不是「看见物体」,而是「如何正确描述运动」。尤其是旋转。

长期以来,大量位姿估计方法都默认在欧式空间(Euclidean Space)中直接回归旋转参数,例如 Euler Angle、Quaternion 或 Rotation Matrix。这样的方式虽然简单,但始终存在一个核心问题:

旋转本身,其实并不属于普通欧式空间。

例如欧拉角存在万向节锁(Gimbal Lock)问题;四元数虽然连续,却需要额外归一化约束;而旋转矩阵则天然受到正交约束限制。这意味着,网络虽然是在「学习旋转」,但优化过程却始终运行在一个并不匹配的空间中。

这种几何不一致,会直接导致训练不稳定、优化困难以及姿态抖动等问题。尤其在关节物体场景下,由于多个部件之间存在复杂运动耦合,误差还会进一步累积放大。

CAPER++ 则尝试从更底层的几何结构重新思考这一问题。



论文首次将关节物体位姿学习过程从传统欧式空间拓展至 SE (3) 流形切空间(Tangent Space),并基于 Lie Algebra 对位姿增量进行建模。

这一设计的核心思想在于:

既然刚体运动天然属于 SE (3) 群,那么位姿学习过程本身,也应该在符合其几何结构的空间中完成。

具体而言,CAPER++ 不再直接回归最终旋转结果,而是学习位姿在 Lie Algebra 空间中的增量表达,再通过指数映射恢复真实 SE (3) 位姿。相比传统直接回归方式,这种方法能够更自然地保持旋转连续性与几何一致性。

更重要的是,这种建模方式对于关节物体尤为关键。

因为不同部件之间的相对运动,本质上就是定义在 SE (3) 空间中的局部变换关系。通过在流形空间中进行统一优化,CAPER++ 能够更加稳定地建模复杂关节运动链,并有效降低长期预测漂移。

实验结果表明,该设计不仅显著提升了位姿估计稳定性,同时也增强了模型在复杂动态场景下的鲁棒性。

为什么位姿追踪总会「越跟越飘」?

CAPER++ 把长期追踪变成了局部增量学习

在真实机器人场景中,位姿估计往往并不是「一次性任务」。机器人需要持续观察目标物体,并在连续视频流中不断更新其位姿状态。无论是机械臂操作柜门,还是服务机器人拉开抽屉,系统都必须在动态过程中稳定追踪关节物体的运动变化。

然而,长期位姿追踪一直存在一个非常棘手的问题:

误差会不断累积。

传统追踪方法通常直接以前一帧预测结果作为下一帧输入,并持续递推更新。短时间内这种方式或许有效,但随着时间推移,微小误差会逐渐放大,最终导致明显漂移、姿态抖动甚至跟踪失败。对于关节物体而言,这一问题会更加严重。

因为关节物体不仅包含整体运动,还伴随着多个部件之间的局部运动变化。当遮挡、快速运动或观测残缺出现时,系统很容易逐渐偏离真实运动轨迹。

CAPER++ 则从另一个角度重新思考了位姿追踪问题。

论文提出,与其让模型直接学习「长期运动」,不如将连续追踪拆解为大量「短距离局部增量」。

基于这一思想,CAPER++ 设计了 Proxy Canonicalization 与动态关键帧(Dynamic Keyframe)机制,将长时序位姿追踪转化为相邻帧之间的局部增量学习问题。



具体而言,系统会动态选择关键帧作为参考坐标,并将当前观测规范化到局部代理空间(Proxy Canonical Space)中。在这一空间下,模型无需处理复杂的大范围运动变化,而只需要学习相邻帧之间更加稳定的小幅位姿增量。

这一设计带来了一个重要优势:

复杂的全局运动,被转化成了更加容易学习的局部连续运动。

与此同时,动态关键帧机制还能周期性重置参考状态,有效抑制长期误差传播,从根源上降低漂移问题。实验结果表明,即使在快速运动、严重遮挡以及长时序动态场景下,CAPER++ 依然能够保持稳定、连续且高精度的位姿追踪能力。

实验结果

对于关节物体位姿感知而言,「高精度」并不意味着真正可用。在真实机器人场景中,一个方法不仅需要预测准确,还必须能够在遮挡、快速运动以及残缺观测下保持稳定,并满足实时推理需求。这也是为什么,许多实验室中的高精度方法,最终难以真正部署到真实系统中的核心原因。

CAPER++ 的实验部分,恰恰重点验证了这一点。论文分别在合成数据集、半真实场景以及真实世界数据集上进行了大规模评估,覆盖多类别、多关节结构以及复杂动态场景。实验结果表明,CAPER++ 在位姿估计与位姿追踪任务中均取得了当前最优性能。



尤其值得关注的是,在复杂遮挡与运动干扰场景下,CAPER++ 依然能够保持稳定预测。相比传统 Part-wise 方法,其预测结果不仅精度更高,而且关节结构更加符合真实物理运动规律,显著降低了部件漂移与结构错位问题。

除了定量结果,论文中的可视化结果同样非常直观。



在多个动态序列中,CAPER++ 能够持续稳定地跟踪关节物体运动状态,即使面对快速旋转、局部遮挡以及残缺点云输入,依然能够保持连续且平滑的位姿预测。而部分传统方法则会逐渐出现关节偏移、结构断裂甚至整体跟踪失败。

更重要的是,CAPER++ 并没有为了精度牺牲实时性。得益于 Joint-Centric 层次化建模与增量式追踪机制,CAPER++ 在无需复杂后处理与优化求解的情况下,实现了约 50 FPS 的实时推理速度。这意味着,该方法不仅能够「看得准」,还能真正满足机器人在线交互与动态操作需求。

某种意义上,CAPER++ 真正解决的,并不仅仅是「位姿估计」本身,而是让关节物体位姿感知第一次同时具备了「精度」「鲁棒性」与「实时性」三项长期难以兼顾的能力。

结语

长期以来,关节物体位姿感知始终面临一个核心矛盾:高精度方法往往依赖复杂优化,难以满足实时需求;而强调效率的方法,又容易在复杂动态场景下出现结构不稳定与长期漂移问题。

这也是为什么,尽管近年来相关研究不断发展,但真正能够部署到真实机器人系统中的方法仍然有限。

CAPER++ 的意义,恰恰在于尝试进一步缩小「实验室方法」与「真实场景需求」之间的距离。

论文不仅在多个数据集上实现了稳定、准确且实时的关节物体位姿感知能力,也进一步说明:对于复杂运动结构的理解,仅依赖局部几何信息往往是不够的,运动约束、结构一致性以及时序连续性,同样是机器人感知系统中不可忽视的重要部分。

随着具身智能、机器人操作以及动态场景交互持续发展,这类兼顾鲁棒性、实时性与物理一致性的感知框架,未来有望在家庭机器人、工业自动化以及复杂人机交互等场景中发挥更实际的价值。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新