中国科大、合工大等提出CAPER++：关节物体位姿感知迈向又快又稳

IP属地中国·北京 机器之心Pro 时间：2026-05-26 20:27:26

在具身智能快速发展的今天，机器人已经不再满足于「看见」刚体物体，而是开始真正走向复杂环境中的交互与操作。从机械臂开柜门，到服务机器人整理抽屉，再到工业场景中的工具操作，大量真实世界目标都属于关节物体（Articulated Objects）。
对于具身智能系统而言，如何准确理解这些物体的空间姿态与运动状态，一直是迈向真实场景交互的关键难题。
然而，相比传统刚体，关节物体的位姿感知一直是一个更加困难的问题。这是因为，关节物体不仅存在多部件结构，还伴随着复杂的运动约束关系。不同部件之间并不是彼此独立，而是受到旋转关节、滑动关节等运动学结构的强约束。一旦遮挡、快速运动或观测残缺出现，传统方法就容易产生不符合物理规律的预测结果。
近年来，类级别关节物体位姿估计逐渐成为热点方向，却存在一个长期未被真正解决的问题：
如何同时兼顾「鲁棒性」与「实时性」？
一类方法依赖复杂后处理与优化过程，虽然精度较高，但速度难以满足实时需求；另一类方法强调端到端效率，却往往忽略运动学约束，在复杂场景下容易出现姿态抖动、结构不一致甚至长期跟踪漂移，即不稳定预测。
针对这一问题，来自中国科学技术大学、合肥工业大学等机构的研究团队提出了CAPER++：一个兼具高鲁棒性、高效率与实时追踪能力的统一关节物体位姿感知框架。该工作已被《IEEE Transactions on Pattern Analysis and Machine Intelligence》（TPAMI）接收。
CAPER++ 是一个端到端的一体化关节物感知方案：可自由切换到关节物体的静态位姿估计和动态位姿追踪。目前代码已开源，欢迎学术界和工业界试用。

论文标题： Probing Effective and Efficient Category-Level Articulated Object Pose Perception论文链接：https://ieeexplore.ieee.org/abstract/document/11480457项目主页：https://sites.google.com/view/caperplusplus仓库链接：https://github.com/zanly20/CAPERPlusPlus
引言
过去几年，机器人领域正在经历一个明显变化：研究重点开始从「识别物体」逐渐转向「理解物体如何运动」。对于真实世界中的机器人而言，仅仅知道一个物体「是什么」已经远远不够。机器人还需要理解它「如何被打开」「如何被推动」「哪些部分可以运动」，以及不同部件之间存在怎样的运动约束关系。
与传统刚体不同，关节物体往往由多个部件构成，并通过旋转关节或滑动关节连接。例如柜门会绕铰链旋转，抽屉会沿轨道滑动，机械臂不同连杆之间也存在复杂耦合关系。这意味着，机器人不仅需要感知物体整体姿态，还必须同时推理不同部件之间的相对运动状态。
然而，这一任务远比想象中困难。一方面，真实场景中普遍存在遮挡、快速运动以及残缺观测问题；另一方面，关节结构天然具有严格的运动学约束，而现有方法大多采用独立的 part-wise 建模策略，将各个部件分别预测后再进行组合。这种方式虽然直观，却容易忽略部件之间的关联关系，导致预测结果不稳定，甚至出现不符合物理规律的姿态结构。
更关键的是，许多高精度方法仍然依赖复杂优化或后处理过程。这类方法虽然能够提升估计精度，但推理效率往往难以满足真实机器人系统对于实时性的要求。
在 CAPER++ 这篇论文中，与传统「零件独立预测」的思路不同，CAPER++ 首次从「关节驱动」的视角重新建模关节物体。论文提出了一种 Joint-Centric（关节中心）层次化建模策略，将物体划分为 Root Part 与 Constrained Part，并显式引入运动学约束，使网络能够学习更加符合物理规律的位姿结构。
更进一步，CAPER++ 将位姿学习过程从传统欧式空间拓展至SE (3) 流形切空间，通过 Lie Algebra 建模旋转与位姿增量，有效缓解了传统旋转回归中的奇异性、不稳定优化以及几何约束破坏等问题。在保证高精度的同时，实现了无需后处理的端到端推理。
而在动态追踪场景中，CAPER++ 进一步提出 Proxy Canonicalization 与动态关键帧机制，将连续视频中的位姿追踪转化为相邻帧之间的增量学习问题，大幅降低长期漂移与时序抖动，使系统在复杂动态环境中依然保持稳定预测。实验结果显示，CAPER++ 不仅在多个合成、半真实与真实世界数据集上取得了当前最优性能，还实现了 50 FPS 实时推理速度，真正兼顾了「精度」「鲁棒性」与「实时性」三项长期难以统一的目标。
不再「零件各管各的」：
CAPER++ 如何重新理解关节物体？
现有大量关节物体位姿估计方法，本质上都遵循一种典型思路：先将物体拆分成多个部件（Part），再分别预测每个部件的位姿，最后进行组合恢复。
这种 Part-wise 建模方式虽然直观，却存在一个长期被忽略的问题：
现实世界中的关节物体，本来就不是「彼此独立」的。
例如柜门的运动一定围绕铰链展开，抽屉只能沿滑轨方向移动，机械臂不同连杆之间也始终受到运动链约束。换句话说，部件之间天然存在强耦合关系。但传统方法往往将这些部件视作相互独立的刚体进行预测，导致模型虽然「看到了局部」，却无法真正理解整体运动结构。
这也是为什么，在遮挡、残缺观测或者复杂运动场景下，传统方法容易出现结构不一致、姿态漂移甚至违反物理规律的预测结果。
针对这一问题，CAPER++ 提出了 Joint-Centric（关节中心）层次化建模策略，从「关节」而非「部件」视角重新定义关节物体位姿感知。
论文将整个关节物体划分为 Root Part 与 Constrained Part 两类结构。其中，Root Part 作为运动参考主体，负责建立整体空间坐标；而其余可运动部件，则不再被独立回归完整 6D 位姿，而是通过关节参数与运动状态进行约束恢复。

这一设计带来了一个关键变化：
模型不再直接学习「每个部件在哪里」，而是开始学习「部件为什么会这样运动」。
在具体实现上，CAPER++ 首先预测 Root Part 的位姿，并将输入点云变换到规范化关节空间（Canonicalized Articulation Space）。随后，网络进一步估计关节轴、旋转中心以及关节状态等运动学参数，并结合运动约束恢复其余部件姿态。
相比传统独立预测方式，这种关节中心建模不仅显著提升了结构一致性，还使模型在遮挡、快速运动以及复杂关节配置下保持更强鲁棒性。
为什么传统旋转回归总「不稳定」？
CAPER++ 把位姿学习搬进了 SE (3) 流形
在关节物体位姿估计中，真正困难的部分，往往不是「看见物体」，而是「如何正确描述运动」。尤其是旋转。
长期以来，大量位姿估计方法都默认在欧式空间（Euclidean Space）中直接回归旋转参数，例如 Euler Angle、Quaternion 或 Rotation Matrix。这样的方式虽然简单，但始终存在一个核心问题：
旋转本身，其实并不属于普通欧式空间。
例如欧拉角存在万向节锁（Gimbal Lock）问题；四元数虽然连续，却需要额外归一化约束；而旋转矩阵则天然受到正交约束限制。这意味着，网络虽然是在「学习旋转」，但优化过程却始终运行在一个并不匹配的空间中。
这种几何不一致，会直接导致训练不稳定、优化困难以及姿态抖动等问题。尤其在关节物体场景下，由于多个部件之间存在复杂运动耦合，误差还会进一步累积放大。
CAPER++ 则尝试从更底层的几何结构重新思考这一问题。

论文首次将关节物体位姿学习过程从传统欧式空间拓展至 SE (3) 流形切空间（Tangent Space），并基于 Lie Algebra 对位姿增量进行建模。
这一设计的核心思想在于：
既然刚体运动天然属于 SE (3) 群，那么位姿学习过程本身，也应该在符合其几何结构的空间中完成。
具体而言，CAPER++ 不再直接回归最终旋转结果，而是学习位姿在 Lie Algebra 空间中的增量表达，再通过指数映射恢复真实 SE (3) 位姿。相比传统直接回归方式，这种方法能够更自然地保持旋转连续性与几何一致性。
更重要的是，这种建模方式对于关节物体尤为关键。
因为不同部件之间的相对运动，本质上就是定义在 SE (3) 空间中的局部变换关系。通过在流形空间中进行统一优化，CAPER++ 能够更加稳定地建模复杂关节运动链，并有效降低长期预测漂移。
实验结果表明，该设计不仅显著提升了位姿估计稳定性，同时也增强了模型在复杂动态场景下的鲁棒性。
为什么位姿追踪总会「越跟越飘」？
CAPER++ 把长期追踪变成了局部增量学习
在真实机器人场景中，位姿估计往往并不是「一次性任务」。机器人需要持续观察目标物体，并在连续视频流中不断更新其位姿状态。无论是机械臂操作柜门，还是服务机器人拉开抽屉，系统都必须在动态过程中稳定追踪关节物体的运动变化。
然而，长期位姿追踪一直存在一个非常棘手的问题：
误差会不断累积。
传统追踪方法通常直接以前一帧预测结果作为下一帧输入，并持续递推更新。短时间内这种方式或许有效，但随着时间推移，微小误差会逐渐放大，最终导致明显漂移、姿态抖动甚至跟踪失败。对于关节物体而言，这一问题会更加严重。
因为关节物体不仅包含整体运动，还伴随着多个部件之间的局部运动变化。当遮挡、快速运动或观测残缺出现时，系统很容易逐渐偏离真实运动轨迹。
CAPER++ 则从另一个角度重新思考了位姿追踪问题。
论文提出，与其让模型直接学习「长期运动」，不如将连续追踪拆解为大量「短距离局部增量」。
基于这一思想，CAPER++ 设计了 Proxy Canonicalization 与动态关键帧（Dynamic Keyframe）机制，将长时序位姿追踪转化为相邻帧之间的局部增量学习问题。

具体而言，系统会动态选择关键帧作为参考坐标，并将当前观测规范化到局部代理空间（Proxy Canonical Space）中。在这一空间下，模型无需处理复杂的大范围运动变化，而只需要学习相邻帧之间更加稳定的小幅位姿增量。
这一设计带来了一个重要优势：
复杂的全局运动，被转化成了更加容易学习的局部连续运动。
与此同时，动态关键帧机制还能周期性重置参考状态，有效抑制长期误差传播，从根源上降低漂移问题。实验结果表明，即使在快速运动、严重遮挡以及长时序动态场景下，CAPER++ 依然能够保持稳定、连续且高精度的位姿追踪能力。
实验结果
对于关节物体位姿感知而言，「高精度」并不意味着真正可用。在真实机器人场景中，一个方法不仅需要预测准确，还必须能够在遮挡、快速运动以及残缺观测下保持稳定，并满足实时推理需求。这也是为什么，许多实验室中的高精度方法，最终难以真正部署到真实系统中的核心原因。
CAPER++ 的实验部分，恰恰重点验证了这一点。论文分别在合成数据集、半真实场景以及真实世界数据集上进行了大规模评估，覆盖多类别、多关节结构以及复杂动态场景。实验结果表明，CAPER++ 在位姿估计与位姿追踪任务中均取得了当前最优性能。

尤其值得关注的是，在复杂遮挡与运动干扰场景下，CAPER++ 依然能够保持稳定预测。相比传统 Part-wise 方法，其预测结果不仅精度更高，而且关节结构更加符合真实物理运动规律，显著降低了部件漂移与结构错位问题。
除了定量结果，论文中的可视化结果同样非常直观。

在多个动态序列中，CAPER++ 能够持续稳定地跟踪关节物体运动状态，即使面对快速旋转、局部遮挡以及残缺点云输入，依然能够保持连续且平滑的位姿预测。而部分传统方法则会逐渐出现关节偏移、结构断裂甚至整体跟踪失败。
更重要的是，CAPER++ 并没有为了精度牺牲实时性。得益于 Joint-Centric 层次化建模与增量式追踪机制，CAPER++ 在无需复杂后处理与优化求解的情况下，实现了约 50 FPS 的实时推理速度。这意味着，该方法不仅能够「看得准」，还能真正满足机器人在线交互与动态操作需求。
某种意义上，CAPER++ 真正解决的，并不仅仅是「位姿估计」本身，而是让关节物体位姿感知第一次同时具备了「精度」「鲁棒性」与「实时性」三项长期难以兼顾的能力。
结语
长期以来，关节物体位姿感知始终面临一个核心矛盾：高精度方法往往依赖复杂优化，难以满足实时需求；而强调效率的方法，又容易在复杂动态场景下出现结构不稳定与长期漂移问题。
这也是为什么，尽管近年来相关研究不断发展，但真正能够部署到真实机器人系统中的方法仍然有限。
CAPER++ 的意义，恰恰在于尝试进一步缩小「实验室方法」与「真实场景需求」之间的距离。
论文不仅在多个数据集上实现了稳定、准确且实时的关节物体位姿感知能力，也进一步说明：对于复杂运动结构的理解，仅依赖局部几何信息往往是不够的，运动约束、结构一致性以及时序连续性，同样是机器人感知系统中不可忽视的重要部分。
随着具身智能、机器人操作以及动态场景交互持续发展，这类兼顾鲁棒性、实时性与物理一致性的感知框架，未来有望在家庭机器人、工业自动化以及复杂人机交互等场景中发挥更实际的价值。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

互联网退居幕后？2026中国互联网大会揭开AI时代算力底牌

Anthropic、OpenAI与SpaceX的上市规模超过过去25年科技退出总和

BW2026首日AMD火力全开：游戏本与AI创作本齐发，引领智能娱乐新风潮

AMD与联想强强联手，BW2026首发锐龙AI Max新品，开启AI笔记本新体验

工信部第409批车辆公告出炉：小米澎程系列领衔，多款新车集中亮相

“牵手”薄荷健康，蚂蚁集团到底想要什么

全站最新

互联网退居幕后？2026中国互联网大会揭开AI时代算力底牌

Anthropic、OpenAI与SpaceX的上市规模超过过去25年科技退出总和

BW2026首日AMD火力全开：游戏本与AI创作本齐发，引领智能娱乐新风潮

AMD与联想强强联手，BW2026首发锐龙AI Max新品，开启AI笔记本新体验

热门推荐

互联网退居幕后？2026中国互联网大会揭开AI时代算力底牌

Anthropic、OpenAI与SpaceX的上市规模超过过去25年科技退出总和

长征十号乙海上网系回收成功，外媒关注：中国航天迈出追赶SpaceX新步伐

智元精灵G2获中美欧多地认证开启具身智能机器人全球商用新篇章

从预热到官宣！小米澎程N90与N70的“空间魔法”全揭秘

小米澎程N90 Max官图亮相，前脸车侧车尾全视角一览无余

Meta收购Virtue AI核心团队，为超级智能计划筑牢安全防线

十亿级参数纯华语AI音乐大模型问世，打通字节七大平台开启创作新篇

字节跳动公益基金会捐2000万支援灾区平台带动超200万人捐款助力

AI竞争白热化！扎克伯格“现身”X宣传，马斯克互动调侃成焦点

雷军分享小米澎程N90座舱：七座布局多样场景满足六至七口人需求

小米澎程首款SUV SkyNomad N90命名公布，座舱空间多元场景自由切换

BW2026首日AMD火力全开：游戏本与AI创作本齐发，引领智能娱乐新风潮

AMD与联想强强联手，BW2026首发锐龙AI Max新品，开启AI笔记本新体验

从风味到营养：中国黑猪如何以新价值体系叩响高端市场大门