当前位置: 首页 » 资讯 » 科技头条 » 正文

NVIDIA与高校联手SpaceTools:AI机器人实现视觉与操作双突破

IP属地 中国·北京 科技行者 时间:2025-12-06 00:12:50


这项由NVIDIA、密歇根大学、俄亥俄州立大学联合完成的突破性研究发表于2024年12月,研究团队包括陈思毅、米凯拉·安吉利娜·乌伊、宋灿熙等多位研究者。感兴趣的读者可以通过论文编号arXiv:2512.04069v1查询完整论文。

想象一下,你正在厨房里准备晚餐,需要同时使用多种厨具:切菜刀、炒锅、烤箱、调味瓶等等。一个经验丰富的厨师知道什么时候该用哪种工具,如何协调使用这些工具来做出美味的菜肴。现在,研究团队要解决的问题是:如何让AI机器人也拥有这样的"厨艺",但它们面对的不是厨具,而是各种视觉分析工具。

当前的AI视觉模型就像是一个只会用一把菜刀的新手厨师。虽然它们在回答简单问题方面表现不错,比如"这个苹果是什么颜色",但当遇到复杂的空间推理任务时就显得力不从心了。比如"哪个踏板最小,应该按哪里来启动它?"这样的问题需要AI同时具备识别、比较大小、定位激活点等多种能力,就像做一道复杂菜肴需要多种技能的配合。

NVIDIA联合研究团队开发的SpaceTools系统就是要解决这个问题。他们的核心创新在于创造了一种叫做"双重交互强化学习"(DIRL)的训练方法,让AI学会像经验丰富的厨师一样协调使用多种"工具"。这些工具包括深度估计器(用来判断物体远近)、分割工具(用来识别特定物体)、3D边界框工具(用来测量物体大小)等等,就像厨师工具箱里的各种专业厨具。

研究团队面临的最大挑战是:如何让AI学会在合适的时机选择合适的工具?这就像教一个人学做菜,如果一开始就把所有复杂的技巧都教给他,他会被搞得晕头转向。所以研究团队设计了一个巧妙的两阶段学习过程。

第一阶段叫做"教学阶段",就像先教新手厨师使用一把最基本的刀具。研究团队首先训练AI使用最基础的指向工具,让它学会准确识别和定位物体。这个阶段就像学会如何正确握刀和切菜一样,是后续所有技能的基础。同时,他们还让一个"万能老师"(实际上是Claude Sonnet 4.5这样的高级AI模型)示范如何使用全套工具解决复杂问题,就像让米其林星级厨师展示完整的烹饪流程。

第二阶段叫做"探索阶段",这时AI已经掌握了基础技能,可以开始尝试使用全套工具了。就像厨师学会了基础刀工后,开始学习如何协调使用炒锅、烤箱、调味料等各种工具。在这个阶段,AI通过不断尝试和获得反馈来改进自己的工具使用策略。

为了支撑这种复杂的训练过程,研究团队还开发了一个叫做"Toolshed"的技术平台。你可以把它想象成一个超级智能的厨房管理系统,能够同时管理和调度多种工具,确保每种工具在需要的时候都能及时响应。这个系统解决了一个关键问题:当AI需要同时使用多种计算密集的工具时,如何避免系统卡顿或崩溃。

Toolshed的巧妙之处在于它的"去耦合"设计。就像一个高效的厨房里,洗菜、切菜、炒菜可以同时进行而不互相干扰,Toolshed让不同的视觉工具可以在独立的环境中运行,避免了资源争夺和相互干扰。更重要的是,它支持异步处理,意味着AI不需要等待一个工具完成工作后再使用下一个,而是可以同时调用多个工具,大大提高了效率。

研究团队在训练过程中还解决了一个有趣的奖励机制问题。传统的AI训练就像给学生打分,对就给满分,错就是零分。但在复杂的空间推理任务中,这种简单粗暴的评分方式不够精细。研究团队设计了更加细致的奖励系统,比如在指向任务中,如果AI指向的位置离正确位置很近,它会得到相应的部分分数,而不是完全的零分。这种方法让AI能够更好地学习和改进。

具体来说,对于不同类型的任务,研究团队设计了不同的评分标准。在选择题任务中,答对了就得1分,答错了得0分,这很直接。但在更复杂的任务中就需要更精细的评分。比如在2D边界框定位任务中,他们使用"平均交并比"来评分,简单说就是看AI画的框和正确答案有多少重叠。在指向任务中,他们使用一种叫做"标准化负距离质心"的方法,听起来复杂,其实就是根据指向点离正确位置的距离来给分,离得越近分数越高。

对于更高级的任务,比如姿态估计和抓握预测,评分标准也更加复杂。姿态估计就像要求AI准确识别一个物体在3D空间中的方向和位置,研究团队通过比较预测的8个3D角点和真实角点来评分。抓握预测则需要AI不仅要找到正确的抓握位置,还要确定正确的抓握方向和力度,这就像要求机器人知道如何像人类一样灵巧地拿起各种物体。

在实际测试中,SpaceTools展现出了令人印象深刻的性能。研究团队在多个标准测试数据集上进行了评估,包括RoboSpatial-Home、BLINK、RefSpatial、CVBench和BOP-ASK等。这些测试涵盖了从简单的空间关系理解到复杂的机器人操作等各个方面。

最有趣的是,研究团队还进行了真实机器人实验。他们让SpaceTools控制一个7自由度的机械臂,执行拾取和放置任务。机器人需要通过摄像头观察环境,识别目标物体,规划抓握策略,然后执行动作。在这些实验中,SpaceTools达到了86%的成功率,这个数字相当不错,特别是考虑到机器人需要处理真实世界中的各种不确定因素。

值得注意的是,SpaceTools不只是在训练数据上表现良好,它还展现出了很好的泛化能力。就像一个优秀的厨师不仅能按照食谱做菜,还能根据现有食材创新菜品,SpaceTools在面对训练中没有见过的任务时,也能表现出不错的性能。

研究团队还做了详细的消融实验来验证他们方法的各个组成部分的重要性。消融实验就像是一道菜的"去除某个调料"实验,看看少了某个成分后效果会如何。他们发现,如果去掉IRL训练的老师模块,性能会显著下降。如果去掉万能老师的示范,在需要多工具协作的复杂任务上表现会变差。如果去掉第二阶段的探索训练,最终的工具协调能力会受到限制。

这些实验结果证明了双重交互强化学习方法的每个组成部分都是必要的,就像一道复杂菜肴中每种调料都有其不可替代的作用。

除了技术层面的创新,这项研究还在系统工程方面做出了重要贡献。Toolshed平台的开发解决了在大规模AI训练中管理多个复杂工具的难题。这个平台采用了现代化的分布式计算架构,基于Ray框架实现,支持工具的动态扩展和负载均衡。

从技术实现角度来看,Toolshed支持多种类型的工具,包括视觉工具和机器人工具。视觉工具包括SAM2分割工具、DepthPro深度估计工具、RoboRefer和Molmo指向检测工具等。机器人工具则包括图像捕获、深度捕获、抓握执行、物体放置等功能。这种模块化设计使得系统可以根据需要灵活配置和扩展。

研究团队还特别注意到了训练数据的质量和平衡性问题。他们发现,原始的RoboSpatial数据集中超过75%的答案都是"否",这种不平衡会导致AI偏向于预测"否"。就像如果一个学生做的选择题中大部分正确答案都是A,他可能会养成无论什么题都选A的坏习惯。研究团队通过重新平衡数据集解决了这个问题,让AI能够做出更准确和均衡的判断。

在模型架构方面,研究团队选择了Qwen2.5-VL-3B-Instruct作为基础模型。这是一个相对较小但性能优秀的多模态模型,具有25亿个可训练参数。他们只对语言模型部分进行微调,而保持视觉编码器和投影层冻结,这种做法既保证了训练效率,又维持了模型在视觉理解方面的原有能力。

训练过程中,研究团队采用了Group Relative Policy Optimization(GRPO)算法。这个算法的核心思想是通过比较同一批次中不同回答的相对表现来更新模型,而不是依赖绝对的分数标准。这种方法更加稳定,也更适合处理奖励信号可能存在噪声的情况。

具体的训练配置经过了精心调整。第一阶段的IRL训练使用了4000个样本,学习率设置为1e-6,KL散度系数为1e-4。SFT训练使用了8000个高质量轨迹,学习率为1e-5,采用余弦学习率调度。第二阶段的IRL训练重新使用约8000个样本,继续优化工具协调能力。

值得一提的是,研究团队在奖励设计方面投入了大量精力。他们尝试了多种不同的奖励函数,最终发现标准化负距离质心(NNDC)奖励在指向任务中表现最佳。这个奖励函数使用指数衰减的方式,距离目标越近得分越高,同时加入了二进制准确性项来强调精确性。

在机器人实验部分,研究团队使用了Kinova Jaco机械臂,配备ZED2 RGB-D摄像头。他们将机器人系统也抽象为工具,提供了图像捕获、深度获取、抓握执行、物体放置等API接口。这种设计让AI可以像使用其他视觉工具一样控制机器人,实现了感知和行动的统一。

机器人实验涵盖了三类任务:简单拾取、关系拾取和拾取放置。简单拾取任务要求机器人拾取指定物体,关系拾取任务需要机器人理解空间关系(如"拾取更远的椰子水"),拾取放置任务则要求完整的操作流程。实验结果显示,SpaceTools在所有任务类型上都表现良好,特别是在关系拾取任务上显著优于其他方法。

研究团队还进行了与商业AI模型的对比实验。他们将同样的工具系统接入到GPT-5和Claude Sonnet 4.5等先进模型中,发现虽然这些模型在某些任务上表现不错,但在需要精确工具协调的任务上,专门训练的SpaceTools表现更优。这说明专门的训练对于复杂的多工具协调确实是必要的。

从技术细节来看,SpaceTools的成功还得益于其精心设计的系统提示词。这个提示词不仅定义了可用工具和使用方法,还规定了推理格式和输出结构。模型需要在标签中进行思考,在标签中调用工具,在标签中给出最终答案。这种结构化的对话格式帮助模型形成了清晰的推理流程。

在工具可靠性方面,研究团队发现SpaceTools学会了一些有趣的错误恢复策略。比如当一个指向工具失败时,它会自动切换到另一个指向工具;当抓握生成器无法找到无碰撞的抓握姿态时,它会回退到基于图像的手动估计。这种自适应行为说明模型不仅学会了使用工具,还学会了处理工具故障的情况。

研究的一个重要发现是,工具增强的训练不仅提高了模型在训练任务上的表现,还显著改善了泛化能力。一个只在RoboSpatial数据集上训练的模型,在完全不同的RefSpatial数据集上也能达到34.3%的准确率,而其他方法几乎是零。这种跨域泛化能力表明,通过工具使用学到的空间推理技能具有更好的可迁移性。

从更广阔的视角来看,SpaceTools代表了AI发展的一个重要趋势:从单一模型处理所有任务,转向模块化、可扩展的系统架构。就像现代软件开发中的微服务架构一样,这种方法允许系统的不同部分独立发展和优化,同时保持整体功能的协调性。

这种方法的另一个优势是可解释性。当SpaceTools解决一个复杂问题时,我们可以清楚地看到它调用了哪些工具,每个工具返回了什么结果,以及模型如何基于这些信息做出最终决策。这种透明性对于需要可靠性和可解释性的应用场景非常重要。

研究团队也诚实地讨论了当前方法的局限性。首先,虽然Toolshed平台能够高效管理多个工具,但在实际部署中仍然需要相当的计算资源。其次,当前的方法主要专注于相对短期的任务,对于需要长期规划的复杂任务还有改进空间。第三,工具本身的质量直接影响整个系统的性能,如何持续改进和更新工具仍然是一个挑战。

尽管存在这些局限性,SpaceTools的成功为AI系统的发展指出了一个新方向。它证明了通过合适的训练方法,AI可以学会像人类专家一样灵活地使用各种工具来解决复杂问题。这不仅对机器人技术有重要意义,对其他需要复杂推理和决策的AI应用也具有启发价值。

展望未来,这种工具增强的AI系统可能会在更多领域发挥作用。想象一下,一个医生有各种诊断工具可供使用,一个工程师有各种分析软件可以调用,一个科学家有各种实验设备可以操控。如果AI也能像这些专家一样熟练地使用专业工具,那么它们在各个专业领域的应用潜力将大大增加。

SpaceTools的成功还说明了一个重要观点:AI的发展不一定需要越来越大的模型,而可以通过更智能的方法来提升能力。通过让AI学会使用外部工具,我们可以用相对较小的模型实现强大的功能,这对于资源有限的环境和应用场景具有重要意义。

总的来说,NVIDIA联合研究团队的这项工作为AI的工具使用能力树立了新的标杆。它不仅在技术上实现了突破,还在工程实践方面提供了宝贵经验。随着Toolshed平台的开源发布,相信会有更多研究者和开发者基于这个框架开发出更强大、更实用的AI系统。

从商业应用的角度来看,SpaceTools这样的技术可能会带来新的产业机会。在制造业中,具备复杂空间推理能力的机器人可以处理更精细的装配任务。在服务业中,这样的AI系统可以更好地理解和响应人类的空间指令。在教育领域,它可以成为更智能的教学助手,帮助学生理解空间几何概念。

这项研究的社会意义也值得关注。随着AI系统变得越来越有能力,如何确保它们的决策过程是透明和可理解的变得越来越重要。SpaceTools的工具化方法提供了一种可能的解决方案:通过明确的工具调用序列,我们可以追踪和理解AI的推理过程,这对于建立人机信任关系具有重要价值。

说到底,SpaceTools代表的是AI从"独奏者"向"指挥家"的转变。就像一个优秀的指挥家不需要会演奏每一种乐器,但需要知道如何协调整个乐团一样,未来的AI系统可能不需要内置所有功能,但需要学会如何智能地调用和协调各种专业工具。这种理念的转变可能会深刻影响AI技术的发展方向,推动我们向更加模块化、可扩展、可解释的AI系统迈进。对于普通人来说,这意味着我们即将迎来更加智能和实用的AI助手,它们不仅能回答问题,还能真正帮助我们解决现实世界中的复杂问题。

Q&A

Q1:SpaceTools和传统AI视觉模型有什么不同?

A:传统AI视觉模型就像只会用一把菜刀的新手厨师,只能处理简单的识别任务。而SpaceTools就像经验丰富的厨师,能够熟练使用多种工具:深度估计器判断物体远近、分割工具识别特定物体、3D边界框工具测量大小等,并知道在什么时候使用什么工具来解决复杂的空间推理问题。

Q2:双重交互强化学习DIRL是怎么训练AI的?

A:DIRL采用两阶段训练法,类似学做菜的过程。第一阶段是"教学阶段",先教AI使用最基础的指向工具,就像先学会基本刀工;同时让高级AI模型示范完整的工具使用流程。第二阶段是"探索阶段",AI开始尝试协调使用全套工具,通过不断尝试和反馈来改进策略,最终学会像专家一样灵活运用各种工具。

Q3:SpaceTools在真实机器人操作中表现如何?

A:SpaceTools控制7自由度机械臂执行拾取和放置任务时达到了86%的成功率。它能够通过摄像头观察环境,准确识别目标物体,规划抓握策略并执行动作。特别在需要理解空间关系的任务上(如"拾取更远的椰子水"),表现明显优于GPT-5和Claude等商业AI模型,证明了专门训练对复杂工具协调的重要性。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。