当前位置: 首页 » 资讯 » 科技头条 » 正文

首获AAAI杰出论文奖,这个具身团队让机器人学会像人一样凝视目标

IP属地 中国·北京 DeepTech深科技 时间:2026-02-15 18:14:43

想象这样一个场景:一个机器人面前的桌上摆着一堆物体,其中包含红色积木和蓝色积木,此时,如果给出让它“把红色积木叠到蓝色积木上”的指令,它是否能顺利执行?


(Nano Banana Pro)

对人类来说,这个任务听起来十分简单。因为你需要做的只是眼睛盯着红色积木,伸手拿起,然后锁定蓝色积木,放到上面就大功告成。但对当前大多数机器人而言,事情并非如此。在很多时候,机器人的任务成功率并不稳定,它有可能径直去操纵其他物体,而非目标物体。

为什么如此简单的任务,对于机器人来说却无法稳定完成呢?

这是由于当前主流的 VLA 模型(Vision-Language-Action Model,视觉-语言-动作模型)在执行抓取任务时,视觉注意力往往呈弥散分布。也就是说,模型虽能输出动作序列,但其内部注意力并未真正聚焦于指令所指的目标物体(如红色积木),而是分散在图像多个区域。

这种注意力错位直接导致机器人的操作失误,例如容易抓取错误物体,或在多物体环境中定位不准。

为了解决这一问题,来自香港科技大学(广州)与西湖大学等高校的一支联合研究团队,在对主流 VLA 模型进行系统分析后,提出了 ReconVLA(重建式视觉-语言-动作模型)。

在这个模型中,他们创新性地引入了一种名为"隐式定位"(Implicit Grounding)的训练范式。不在推理阶段额外加模块,不输出边界框,而是在训练过程中,通过让模型重建目标操作区域的图像,迫使它在视觉编码阶段就把注意力集中到正确的地方。


图 | 团队论文(arXiv)

据悉,该工作于上月荣获 AAAI 国际先进人工智能协会 2026 的杰出论文奖(Outstanding Paper Award)。

论文第一作者宋文轩告诉 DeepTech,当前 VLA 模型的主流架构,通常以一个预训练好的 VLM 为主干,再接上一个动作生成头(action head),用来输出机器人的控制信号。这个架构里,VLM 负责“看”和“理解”,动作头负责“做”。


图 | 宋文轩 (被访者)

问题在于,VLM 最初是为图像理解和对话任务设计的,它学到的视觉表征(visual representation)侧重语义层面。比如识别一张图里有什么东西、它们之间的关系。但对机器人操控来说,真正重要的不只是“图里有什么”,而是“我该去操作哪里”,这涉及到操作可供性(affordance)的感知,是一种 VLM 原生训练目标中并不包含的能力。

另一位团队核心成员之一丁鹏翔补充,通用视觉模型和具身控制任务之间存在显著的领域差异(domain gap)。即便 VLM 在图像理解上极为强大,它也未必能自然迁移到机器人场景。这种能力缺失直接表现为视觉注意力的高度弥散。


图 | 丁鹏翔 (受访者)

在简单场景下,注意力分散或许影响不大。如果桌上只有一个物体,就算注意力散一点,模型也大概率能抓对。但一旦场景变得杂乱,比如桌面上摆了五六样东西,麻烦就来了。

团队实验表明,此时,“模型往往看到物体就抓”。只要腕部相机视野中出现可抓取目标,模型就倾向于执行抓取动作,至于抓的是不是人类期望的那个,它并不总是关心。抓取动作的成功率可能很高,但抓取的正确率则是另一回事。这说明模型完成了动作层面的任务,却没有与人类意图对齐(intent alignment)。

另一个更隐蔽问题出现在长程任务(long-horizon task)中。所谓长程任务,就是需要多个步骤依次完成的操作链。因为即使每一步哪怕只有微小偏差,误差会逐步累积,到后面几步时,系统状态可能已经偏离了训练数据的分布。丁鹏翔举了一个直观的数字:即便单步成功率高达 99%,连续执行 100 步后的整体成功率也只剩约 36.6%。

那么,“隐式定位”到底是什么意思?具体又该如何实现?丁鹏翔给了 DeepTech 类比:人类在执行精细操作时,虽然看到的是整个场景,但真正聚焦的只有一小片区域。如果指令是“拿杯子”,哪怕桌上放了十样东西,人类的视觉焦点会自动锁定在杯子上,周围的一切都变得模糊。这种行为在视觉科学中叫做“凝视”(gaze)。

ReconVLA 借鉴了这一机制。在训练阶段,除了常规的动作预测损失之外,模型还需要完成一个辅助任务:重建当前图像中与操作目标对应的区域,即所谓的“凝视区域”(gaze region)。


(论文)

具体来说,模型的视觉输出 token(称为"重建 token",reconstructive token)会被输入到一个轻量级的扩散变压器(diffusion transformer)中,该扩散模块的目标是从噪声中恢复出凝视区域的视觉特征。如果模型在编码阶段没有把注意力放在目标区域上,它输出的重建 token 就不会包含足够的细粒度信息,扩散模块就无法完成重建,损失函数就会惩罚它。

这形成了一个流畅的反馈回路:想要完成重建 → 必须关注目标 → 关注目标后视觉表征更精确 → 动作预测更准。整个过程中,没有任何显式的边界框输出,也没有外部检测模型参与推理。重建模块只在训练时存在,推理时被完全移除。这意味着 ReconVLA 在部署阶段的推理速度与常规 VLA 模型完全一致,不引入任何额外延迟。

这和此前的视觉定位方法有什么不同?

此前,视觉定位主要依赖于两种范式。一种是"显式定位"(Explicit Grounding),比如 RoboGround 和 VIP 等工作,它们使用外部检测模型(如 YOLO 或 LISA)先把目标物体裁剪出来,再把裁剪图像和原图一起输入 VLA。这种方法确实提供了更聚焦的视觉信息,但它依赖外部模型的精度,且两张图像的简单拼接引入了信息冗余。

另一种是"思维链定位"(CoT Grounding),如 ECoT 和 GraspVLA,让模型先输出目标的边界框坐标,再输出动作。这种方式在理论上很漂亮,但实验结果显示它甚至不如基线。在 CALVIN 基准测试中,CoT 方式的 5 步连续任务成功率几乎为零。原因可能在于,坐标形式的定位信息对 VLA 模型来说并不是一种高效的引导信号,同时要输出精确坐标和精确动作值,给训练带来了额外负担。


图 | 不同范式之间的概念比较(论文)

相比之下,ReconVLA 的隐式定位在同一基准上取得了最高成绩。

在 CALVIN ABC→D 测试(要求模型在未见过的环境 D 中执行 5 步连续任务)中,ReconVLA 在第 5 个子任务上达到了 64.1% 的成功率,而基线模型为 49.0%,显式定位方法为 50.2%,提升约 15 个百分点。在更具挑战性的精细操作任务"积木堆叠"(stack block)中,基线成功率仅 59.3%,ReconVLA 达到 79.5%,提升超过 20 个百分点。


图 | 不同范式之间的测试分数对比(论文)

为了让重建能力具备泛化性,团队还构建了一个大规模预训练数据集,包含超过 10 万条机器人操作轨迹和 200 万个数据样本。数据来源包括开源的 BridgeData V2 以及 LIBERO、CALVIN 两个仿真环境数据集。

凝视区域的标注借助了 Grounding DINO 这一开放词汇检测模型(open-vocabulary detector),大部分数据可以通过零样本(zero-shot)方式直接标注,对于机器人场景中一些较为罕见或复杂的物体,团队则进行了定制化微调。消融实验证实,预训练阶段对泛化能力的提升是显著的。移除预训练后,5 步连续任务的最终成功率从 64.1% 下降至 58.2%。

真实世界的实验进一步验证了这一方法的可行性。

团队使用一台 6 自由度的 AgileX PiPer 机械臂,配合两个深度相机(分别作为基座视角和手部视角),在四个代表性任务上进行了测试:将水果放入碗中、叠碗、翻杯子、整理桌面。在每个任务中,ReconVLA 都取得了最高成功率。

特别值得注意的是在“未见物体”(unseen objects)的测试中,当目标物体不在训练数据中时,对比方法 OpenVLA 和 PD-VLA 的成功率接近零,而 ReconVLA 仍能成功定位目标并完成操作,展现出其视觉泛化能力。


图 | 四个代表性任务的真实世界设置(论文)

当然,任何方法都不是完美的。宋文轩向 DeepTech 坦言,ReconVLA 的主要额外成本在训练阶段——引入重建目标意味着更多的计算开销,尽管团队已经对扩散模块做了轻量化设计来控制这部分消耗。丁鹏翔指出了另一层局限:当前建模仍然主要基于二维视觉空间,在需要深度信息和三维几何约束的高精度任务中,即便二维定位更加精确,空间操作精度仍然可能受限。

团队透露,他们已在后续工作中开始探索三维感知建模(3D-aware modeling),相关成果已提交至近期的学术会议。此外,力觉感知和力控信号等多模态信息目前也尚未纳入框架,但从方法结构上看,这些模态完全可以通过同样的隐式建模机制整合进来。

谈到具身智能的落地前景,丁鹏翔的看法颇为务实。他认为 VLA 不必急于落地到某一个具体的垂直场景才算有价值。类比早期的 ChatGPT,GPT-3 发布时并没有立即嵌入某个特定行业流程,但它显著改变了写作和内容创作的效率。

VLA 的价值可能也会经历类似的“两步走”。第一步是降低部署成本。过去每个工厂任务都需要独立建模,如果有一个足够强的基础模型,企业只需少量微调就能完成适配;第二步才是结合 Agent 系统构建具体场景的闭环工作流。

他还补充说,他们曾将经过通用训练的模型部署到实际工业环境中测试拧螺丝、插接零部件等任务,结果显示只要基座模型足够稳定,下游任务性能就会显著提升。他认为短中期更具潜力的场景包括半结构化工业装配、轻工业精细操作以及商业服务机器人(如饮品制作)。这些场景的共同特点是操作链条明确、精度要求高、对重复性稳定性有刚需。

除研究外,这支团队还共同创建了一个名为 OpenHelix 的开源社区,目前已持续开源十余个项目,累计获得约 3,600 个 GitHub 星标。在资源有限的条件下,他们选择了一条"高效与聚焦"的路线。不追求数百张 GPU 的大规模训练和高度工程化的演示,而是专注于具有方法论洞见的研究方向。

他们相信,只有通过开放共享,研究成果才能真正落地到更多从业者手中。除了 ReconVLA 的后续迭代,团队还在推进触觉与力反馈、双臂协作等方向的研究,目标是拓宽 VLA 的能力边界,而不仅仅停留在单一展示型应用上。

https://arxiv.org/html/2508.10333v1

运营/排版:何晨龙

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。