ICRA 2026｜港中文GeoLanG ：基于几何感知的语言引导抓取技术，结合统一的 RGB-D 多模态学习机制

IP属地中国·北京 雷峰网 时间：2026-05-28 20:23:15

原文链接：http://www.labren.org/mm/news/?-icra-2026-???????-???????/

很高兴能够分享我们的最新成果——??????。这是一个基于几何认知的统一框架，能够实现语言引导的机器人抓取操作。
语言引导的抓取能力是实现直观的人机交互的关键能力之一。机器人不仅应该能够识别物体，还应该能够理解诸如“拿起碗后面的蓝色杯子”这样的自然语言指令。虽然最近的一些多模态模型取得了令人满意的效果，但大多数现有方法仍然依赖于多个阶段的处理流程，这些流程将感知与抓取预测紧密地结合在一起。然而，这些方法往往忽略了几何形态、语言信息以及视觉推理之间的紧密整合，因此在环境杂乱、遮挡严重或纹理低下的情况下，这些方法的性能会大打折扣。这促使我们努力弥合语义语言理解与精确几何抓取执行之间的差距。

让我们来看看这个挑战吧：
一种新的统一框架，用于几何感知且语言引导的抓取操作，包括以下功能：
统一的 RGB-D 多模态表示：
我们将 RGB 颜色、深度以及语言特征嵌入到一个共享的表示空间中，从而实现跨模态的语义一致性，进而实现精确的目标识别。
深度引导几何模块（DGGM）：
我们并没有将深度信息视为辅助输入，而是将基于深度信息推导出的几何先验信息直接融入注意力机制中。这样能够在遮挡或视觉环境不明确的情况下，更好地实现物体的识别与区分。
Adaptive Dense Channel Integration (ADCI):
一种动态的多层融合策略，能够结合全局语义线索与精细的几何细节，从而实现对物体抓取的稳健预测。

✅ 在语言引导的抓取任务中，GeoLanG 在 OCID-VLG 基准测试上的表现显著优于以往的各种多阶段算法。
✅ 在杂乱且遮挡严重的场景中也能表现出极强的鲁棒性。
✅ 已在真实的机器人硬件上成功进行测试验证，证明从模拟环境到真实环境的转换是可靠的。
关键点总结：
这项研究表明，将几何推理与多模态语言理解紧密结合起来，可以显著提高机器人抓取系统的可靠性。通过将具有深度感知的几何先验信息直接融入注意力机制中，我们能够减少歧义，并提高抓取决策的一致性。
GeoLanG 提供了一种途径，使得机器人系统能够更加智能化。这些机器人不仅能判断需要抓取什么物体，还能在复杂的现实环境中稳健地抓取物体。
我们正在探索将这种几何感知的多模态推理技术扩展到：
Real-time interactive grasping
Multi-step manipulation tasks
Integration with motion planning and autonomous robotic control
雷峰网

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

世界互联网大会开放日连尚集团展示多场景AI应用布局

OPPO与支付宝深化AI生态合作一句话办近200项服务

深圳父女卖存储狂赚38亿！冲刺港股IPO：全球第五大独立存储器厂诞生

马斯克的Grok 4.5刚追上Claude，转头就把用户整个代码库偷偷打包带走

日媒认输：中国车企研发的速度太快了日本一直在追

中国AI算力耗电激增 2030年将消耗8000亿度占全社会用电量6%

全站最新

世界互联网大会开放日连尚集团展示多场景AI应用布局

OPPO与支付宝深化AI生态合作一句话办近200项服务

深圳父女卖存储狂赚38亿！冲刺港股IPO：全球第五大独立存储器厂诞生

马斯克的Grok 4.5刚追上Claude，转头就把用户整个代码库偷偷打包带走

热门推荐

蔚来战略投资长鑫科技：双方将构建稳定、互信的战略供应关系

科大讯飞入股恒特电子

华泰汽车被恢复执行18.4亿

机构：预估陪伴型人形机器人2030年产值达11亿美元

金山办公将推出独立AI办公智能体灵犀专业版，率先上线PC端

人工智能文创产业基地揭牌，浦东、阅文打造全国标杆型“AI+文创”产业项目

GPT-5. 6 上线引爆需求：奥尔特曼称上周OpenAI智能体产品用量增长2. 5 倍

全球首款手机级 27B 多模态 AI 模型 Bonsai 27B 横空出世

大麦娱乐启动“麦芒计划” 直播招募新生代演艺人才

世界互联网大会开放日连尚集团展示多场景AI应用布局

OPPO与支付宝深化AI生态合作一句话办近200项服务

深圳父女卖存储狂赚38亿！冲刺港股IPO：全球第五大独立存储器厂诞生

马斯克的Grok 4.5刚追上Claude，转头就把用户整个代码库偷偷打包带走

日媒认输：中国车企研发的速度太快了日本一直在追

中国AI算力耗电激增 2030年将消耗8000亿度占全社会用电量6%