当前位置: 首页 » 资讯 » 科技头条 » 正文

让机器人"一心二用",用分脑思考打破实时控制速度瓶颈

IP属地 中国·北京 科技行者 时间:2026-06-15 22:12:04

这项由上海交通大学、上海人工智能实验室、百度智能云、香港大学联合开展的研究,以预印本形式发布于2026年6月(论文编号:arXiv:2606.09811),目前尚未收录于正式期刊,感兴趣的读者可通过该编号在arXiv平台检索完整原文。


**机器人为什么总是"慢半拍"?**

假设你雇了一个助手来帮你整理厨房,但这个助手每次伸手拿东西之前,都必须完整地在脑子里播放一遍"接下来会发生什么"的微电影——预见下一秒杯子会怎么移动,盘子会不会倒,手怎么放才合适——然后才敢动手。这当然很小心,但问题是,这种"看一帧、想一帧、动一帧"的工作方式,速度慢得让人抓狂。

这正是目前许多机器人控制系统面临的困境。近年来,一类叫做"世界-动作模型"(World-Action Models,WAMs)的技术开始流行,它的核心思路是让机器人不仅知道当下该怎么动,还能预测这个动作会带来什么样的场景变化。这种把"预测未来画面"和"执行动作"绑定在一起的做法,确实让机器人变得更聪明,但也带来了一个代价:每次执行动作之前,都必须先算完整的"未来视频",导致控制频率极低,最快也只有每秒5次左右,而人类做精细操作时的手部调整频率远不止于此。

上述研究团队认为,这种"世界预测"和"动作执行"被强行绑在同一个节奏上的做法,本质上是一种浪费。预测未来场景这件事,不需要每一步动作都重新算一遍;而执行动作这件事,却需要快速、实时地响应眼前的变化。于是他们提出了一套名为AHA-WAM(Asynchronous Horizon-Adaptive World-Action Model,异步自适应视野世界动作模型)的新框架,让机器人的"规划脑"和"执行脑"彻底分家,各司其职,从而在不牺牲智能的前提下,把控制速度提升了整整4.59倍,最快甚至能达到10.82倍的提升。

一、为什么要给机器人"分两个脑子"

回到刚才那个助手的比喻。更聪明的做法是什么?也许是这样:你雇两个人,一个是"战略顾问",他负责每隔一段时间深度思考整个任务的走向,比如"接下来要先处理左边的架子,再处理右边的抽屉";另一个是"现场执行者",他基于顾问给出的大方向,快速、灵活地处理每一个眼前的动作,同时随时根据眼睛看到的最新情况做微调。这两个人并不需要同步——顾问可以慢慢想,执行者不停地干活,只要执行者能随时访问顾问的最新判断就好。

AHA-WAM的核心设计思路正是如此。研究团队把整个系统拆分成两个"扩散变换器"(Diffusion Transformer,DiT)组成的双模块结构。扩散变换器是一种在图像和视频生成领域非常流行的神经网络架构,可以通俗地理解为一种"从模糊到清晰"的逐步推理机器,在这里被用来既生成动作序列,也生成未来视觉预测。

其中一个叫做"视频DiT",扮演的是"慢思考战略顾问"的角色。它负责在较低的频率下,处理过去的视觉观测,预测较长时间段内(研究中设定为64帧)的场景演化趋势,并把这些"对未来的理解"压缩成一套可以反复使用的"规划语境"——研究中把这些东西称为"分层键值上下文"(layerwise K/V context),可以理解为顾问每次做完深度分析后留下的一份"参考笔记"。

另一个叫做"动作DiT",扮演的是"快速执行者"的角色。它在高频率下(每次只处理16个动作步骤的短序列)不停地根据最新的观测状态生成下一批动作,同时通过一种特殊的"分层联合注意力"机制(layerwise joint attention)来随时翻阅那份顾问留下的参考笔记。这意味着执行者不需要自己从头算"未来会发生什么",只需要利用顾问的分析结果就够了。

这里有一个关键的时间不对称性:慢顾问负责的时间跨度(64帧)远大于快执行者每次处理的动作序列(16步),这就是"视野自适应"这一名称的由来——两个模块被赋予了不同的时间视野,并根据各自的功能调整到最合适的节奏。

二、"笔记"会过时怎么办?——OVCR登场

然而,双脑分离带来了一个新问题:顾问留下的参考笔记不是时时更新的,当执行者快速连续做了好几个动作之后,现场情况已经变了,但笔记还是上一轮分析的结果。就好像你拿着昨晚厨房的照片来指导今天的整理工作,可冰箱里的东西早被别人动过了。

为了解决这个问题,研究团队设计了一个叫做"观测引导的视频语境路由"(Observation-Guided Video-Context Routing,OVCR)的机制。这个名字听起来复杂,但核心思路非常直观:每次执行者要行动之前,先用当前眼睛看到的画面,对顾问的参考笔记做一次"快速修订",而不是整个重新写一份新笔记。

具体来说,OVCR会从当前的视觉图像中提取一组紧凑的"路由查询"(routing queries),可以理解为一组精炼的"问题清单"——"现在杯子在哪里?盘子有没有移动?机械臂的位置对了吗?"然后用这些问题去"检索"顾问笔记中的相关内容,对键值对进行一次残差更新(residual update),即只修改那些和当前观测不符的部分,而保留大部分仍然有效的规划信息。

这种设计的妙处在于,它不需要把所有视觉信息直接塞给动作执行者处理——那样会大大增加计算量——而是把视觉信息压缩成少量查询向量,用极低的计算代价实现了对规划语境的实时校正。本体感知信息(比如机械臂关节角度这种数字状态)则直接输入给动作DiT,因为这类信息本来就很紧凑,不需要经过路由处理。

如此一来,当顾问的分析结果在执行者连续工作的间隙变得有点"过时"时,OVCR就充当了一个实时的"笔记修订者",确保执行者每次翻看的参考内容都是基于最新现场情况的。

三、训练时就"练习时差"——视野自适应偏移训练

除了推理阶段的OVCR机制,研究团队还在训练阶段做了一个重要的设计,叫做"视野自适应偏移训练"(horizon-adaptive offset training)。

这个问题可以这样理解:在实际部署时,顾问不可能恰好在执行者开始新一批动作的那一刻完成分析,大多数时候执行者需要在顾问"分析到一半"的情况下就开始行动,也就是说执行者使用的笔记,可能是顾问在上一次分析周期的中途写下的。如果训练时总是让执行者从"笔记写完"的那一刻开始用,就会导致模型在实际部署时遇到这种"中途切入"的情况时手足无措。

为了解决这个问题,训练时会随机给每个训练样本引入一个随机的时间偏移量δ,让动作序列在规划窗口内的不同相位位置开始。这样一来,执行者在训练过程中就见过了所有可能的"时差情况",也就学会了在任意时间节点接过顾问笔记、继续流畅执行的能力。由于规划周期和动作块的大小之间存在周期性关系,只需要让δ在零到动作块长度减一之间均匀采样,就能覆盖所有可能出现的时间偏移场景。

四、"历史存档"帮顾问记得更远——滚动键值记忆

一个好的战略顾问不只是看眼前,还要记得之前发生了什么。在长时间的操作任务中,机器人可能需要知道"刚才那个物体已经被移到了哪里"或者"之前这个子任务完成到哪一步了",如果顾问每次只看当前画面,就会忘记之前的信息。

为此,研究团队给视频DiT配备了一套"滚动键值记忆"(rolling K/V memory)机制,本质上是一个先进先出的历史存档队列。每次顾问完成一轮分析,都会把这次分析的中间表示(即各层的键值对)存入队列;下一轮分析时,顾问不仅看当前的画面,还会通过注意力机制回顾最近几次分析留下的记录。研究中设定的存档深度是6帧历史,也就是顾问能记住最近6次分析的内容。

这个机制只在视频DiT内部使用,不会增加动作DiT的计算负担。它让顾问的"时间感知窗口"变得更宽,对于那些需要记住子任务完成状态的长流程任务尤其有用。

五、不同模块的精细配合——整体架构的数学逻辑

把上述所有机制拼在一起,形成的是一套在数学上有严格定义的联合训练框架。研究使用了"流匹配"(flow matching)作为训练目标,这是一种比传统扩散模型更简洁高效的生成学习方法,可以理解为让模型学习"从随机噪声到目标轨迹的最短路径"。

训练时,动作损失和视频损失同时优化,视频分支预测的是未来64帧的视觉潜在变量,动作分支预测的是未来16步的机械臂动作序列。两个损失用一个权重参数λ加权相加。在推理阶段,视频分支不再实际输出未来帧的像素内容,只保留其中间层的键值上下文供动作分支调用。视频预测的功能因此从"推理时必须的输出"转变为"训练时的监督信号",这一转变让推理时的计算量大幅减少。

在注意力机制的设计上,视频分支使用完全因果掩码(fully causal mask),确保它在预测未来帧时只能看到当前及过去的信息,这是让它学习前向场景动态的关键约束。动作分支则被阻止直接关注视频分支预测的未来帧token,保证推理时可以安全移除未来帧预测路径而不影响动作生成质量。

六、硬件加速:让快更快——推理优化细节

即便双脑分离的设计已经从架构上消除了视频DiT对每步动作延迟的影响,动作DiT自身的推理速度依然需要优化才能达到实用的控制频率。研究团队做了大量工程级别的加速工作。

动作DiT、记忆模块、语境路由模块以及VAE编码器(负责把摄像头图像转成模型能处理的压缩表示)都被编译进了TensorRT引擎,并通过CUDA Graph技术"录制"成固定的执行图,让每次推理不再需要Python层的调度开销。视频DiT的预填充路径则使用torch.compile进行编译优化,但由于其控制流更复杂,使用了相对宽松的默认编译模式。此外,团队还仔细检查了推理热路径中的冗余计算,把一些只取决于动作块级别输入(而非逐步去噪步骤)的计算挪到去噪循环外面执行,并消除了已处于推理模式的模块上不必要的递归状态遍历。

通过这一系列优化,10步去噪的动作推理延迟从PyTorch直接运行时的415.77毫秒,压缩到了41.37毫秒,降幅超过90%。论文的附录还详细记录了每一步优化带来的具体收益,这种细粒度的消融分析在工程类论文中颇为少见。

在此基础上,研究团队还训练了一个"AHA-WAM-Flash"版本,通过"ODE蒸馏"(ODE distillation)技术把动作去噪步骤从10步进一步压缩到2步。具体做法是冻结视频DiT,只针对动作去噪路径训练一个学生模型,让学生学会直接从带噪声的初始状态一步跳到教师模型最终输出的干净动作,训练时刻意多采样高噪声端的状态,因为那里是最难一步跳到位的地方。2步推理版本的延迟进一步降至17.56毫秒,控制频率达到56.95赫兹。

七、实验结果:既快又准,而且不靠大量预训练数据

研究团队在两个维度上验证了AHA-WAM的实际效果——一个是RoboTwin 2.0仿真基准测试,另一个是真实机器人的部署实验。

RoboTwin 2.0是一个包含50个双臂机械手操作任务的仿真基准,覆盖各种抓取、堆叠、整理、工具使用等技能,每个任务在"干净场景"和"随机化场景"两种条件下各评估100次。AHA-WAM在这50个任务上取得了平均92.80%的成功率,其中干净场景93.40%,随机化场景92.20%。值得关注的是,这个成绩是在没有使用任何机器人数据进行大规模预训练的情况下达到的,比同样没有机器人预训练的Fast-WAM高出0.97个百分点,甚至超过了使用了大规模机器人数据预训练的LingBot-VA(92.20%)0.60个百分点。而Flash版本也保持了90.20%的平均成功率,性能损失非常小。

在真实机器人实验中,研究团队在一套双臂AgileX Piper机器人平台上测试了四项任务:折叠毛巾(考察可变形物体操作能力)、整理桌面(考察多物体长流程组织能力)、准备豆浆(考察精细工具使用能力)和收纳盘子(考察双臂协作与空间泛化能力)。每项任务大约收集了120条演示轨迹作为训练数据,策略只使用头部视角RGB图像、关节状态和语言指令作为输入。

由于Fast-WAM和AHA-WAM默认没有机器人数据预训练,两者都先在RoboCOIN数据集(包含24,600条轨迹、约165小时机器人操作数据)上做了预训练,再在任务特定数据上微调,保证比较的公平性。Motus和Fast-WAM因为推理延迟太高,被部署成非阻塞的RTC风格控制方案并做了动作插值,AHA-WAM则以原生的异步规划-执行方式部署。

结果显示,AHA-WAM在四项任务原始设置下的平均成功率达到78.3%,明显高于Fast-WAM的68.3%和Motus的21.7%,与使用了大规模预训练的π0.5模型的76.7%基本持平甚至略高。在泛化测试(包括光照变化、材质变化、物体摆放变化、环境背景变化等四种分布外情况)中,π0.5表现最好,AHA-WAM在成功率上位居第二,但在"进度分"(0-3分,衡量即便任务未完成也完成了多少子步骤)上以35.00分高于π0.5的33.25分,说明AHA-WAM在遇到分布外情况时往往能完成大部分子步骤,只在最后关头失误,而不是从一开始就彻底失败。

八、消融实验:每个设计都有其不可替代的作用

为了验证每个组件的必要性,研究团队做了一组逐步添加机制的消融对照实验。

基准出发点是Fast-WAM,它的平均成功率是91.83%。如果只是简单地把视频DiT和动作DiT解耦、让动作分支直接复用最新的规划语境而不做任何额外处理(即"朴素异步"版本),成功率会骤降至88.60%,下降超过3个百分点。这证明了单纯的异步执行确实会带来规划-执行错位的问题,并非一种免费的加速。

在朴素异步基础上加入滚动键值记忆后,成功率回升至91.01%,恢复了大部分损失。不过研究者也指出,在RoboTwin这个以中短流程任务为主、物体大多时间可见的基准上,历史记忆的作用相对有限,在更长流程的任务上预计会更加显著。

单独加入OVCR(不加滚动记忆)时,成功率达到91.47%,比只加记忆的版本高0.46个百分点,说明OVCR对于解决实时规划-执行错位的直接效果更强。把两者都加上,AHA-WAM达到了92.80%,超过Fast-WAM近1个百分点——这说明记忆和路由是互补的:记忆负责保存时间连续性,路由负责对齐当前执行状态,缺一不可。

说到底,AHA-WAM做的事情并不玄妙——它就是把一个一直被强行绑在一起做的事情,按照它们本来应该的节奏拆开来做。让想得远的人慢慢想,让动得快的人快快动,再用一个聪明的"实时笔记修订"机制确保两者不脱节。这种设计哲学与其说是技术突破,不如说是一次对机器人控制系统结构本身的重新思考。

对普通人来说,这项研究意味着未来家庭服务机器人、工厂协作机械手、甚至手术辅助机器人,都有可能在不需要堆砌海量硬件资源的情况下,同时做到"看得远"和"动得快"。当机器人可以以接近人类手部调整速度的频率响应环境变化,很多目前还需要高度谨慎和缓慢操作的任务场景,就有可能变得更加流畅自然。

当然,这项研究也坦诚地指出了现有的局限:规划频率、视频预测跨度、动作块大小这些时间超参数的最优配置,可能因任务类型和机器人硬件不同而有所差异,目前还是手动设定而非自动适应的。此外,文章的真实机器人实验只覆盖了四项任务,对于更长流程、更动态环境的验证还有待后续工作展开。感兴趣的读者可以通过arXiv编号2606.09811检索原文深入了解所有技术细节。

Q&A

Q1:AHA-WAM的控制频率为什么比Fast-WAM快这么多?

A:AHA-WAM把原本需要每步都重新运行的"未来视频预测"模块(视频DiT)移出了动作执行的关键路径,改成异步运行——视频模块慢慢算,动作模块不等它、持续快速执行。每次动作更新只需要运行轻量的动作DiT加上OVCR路由,延迟从190毫秒降至约41毫秒,控制频率因此从5.26赫兹提升到24.17赫兹,Flash版本更可达56.95赫兹。

Q2:OVCR机制是用来解决什么问题的?

A:OVCR解决的是"规划语境过时"的问题。视频DiT生成的规划语境(对未来场景的理解)不会每步动作都更新,当机器人连续执行几个动作后,现场状态已经变了,但规划语境还是之前的。OVCR用当前视觉图像生成少量"修订查询",对旧的规划语境做局部残差更新,以极低计算代价实现实时校正,而无需重跑整个视频DiT。

Q3:AHA-WAM在没有大规模机器人数据预训练的情况下,为什么还能达到很高的成功率?

A:AHA-WAM使用了预训练好的Wan2.2-5B视频生成模型来初始化视频DiT,这个模型从大量互联网视频中学到了丰富的物理场景动态知识。这些知识虽然不是专门来自机器人操作数据,但对于理解物体运动、场景变化规律依然有效,相当于给机器人"注入"了对物理世界的基础理解,从而补偿了机器人专属数据不足的问题。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。