![]()
这项由AGIBOT Finch与上海创新研究院联合完成的研究,于2026年5月31日以预印本形式发布在arXiv平台,论文编号为arXiv:2606.01027。有兴趣深入了解的读者可通过该编号查询完整论文。
**机器人为什么总是"手忙脚乱"?**
人类在做任何一件精细动作之前,都会在脑子里过一遍。比如你伸手去拿一杯水,你的大脑会预先判断水杯的位置、重量和距离,然后再指挥手臂以合适的力度和角度去抓。这种"先想后做"的能力,对人类来说再自然不过,却是现代机器人面临的一道真正的技术难关。
今天大多数机器人的行事逻辑更像是"先做了再说"——它们通过大量训练学会了一套"看到什么就做什么"的反射式操作,缺少真正意义上的"后果预判"能力。遇到复杂任务,比如把工具整齐放回工具箱、拉上书包拉链,或者把软管接到水龙头上,这类需要多步骤精细配合的操作,现有的机器人往往表现得差强人意,频繁出错。
τ?-WM(tau-zero World Model)想要改变这一现状。这个由AGIBOT Finch和上海创新研究院的研究团队共同开发的系统,试图给机器人装上一套"事先在脑子里演练"的能力——在真正执行动作之前,先在脑海中模拟一遍会发生什么,再决定到底怎么动手。
**一、机器人的学习困境:数据太贵,视野又窄**
训练一个能干的机器人,需要大量的示范数据。问题是,真正有用的机器人操作数据获取起来代价极高。研究人员需要在实验室里设置好机械臂、摄像头、传感器,然后让人类通过遥控操作的方式一遍一遍地演示各种任务。这个过程费时费力,而且受限于实验室的设备和空间,能覆盖的场景、物体和任务类型其实相当有限。
与此同时,世界上其实存在大量免费且丰富的"人类操作视频"——YouTube上各种做手工、做家务、修理东西的第一视角视频,记录了人类如何用双手处理各种各样的物体。这些视频让机器人"看到"了更广阔的世界,但问题是,这些视频里没有机器人能直接用上的"控制信号"——你看到视频里的人抓起了一个苹果,但视频里没有告诉机器臂应该以什么角度、什么力度、什么速度去完成同样的抓取。
这就形成了一个矛盾:机器人专用的操作数据准确但稀少,人类视频数据丰富但机器人用不上。τ?-WM的研究团队认为,解决这个矛盾的关键,是建立一个能同时消化两类数据的统一框架,让每一类数据都能贡献它本身能提供的那部分信息,而不是硬要把它们统一成同一种格式。
**二、三类数据、一个框架:让每块食材都发挥本味**
为了实现这个目标,研究团队收集了一个规模庞大的训练数据集,总时长约为27300小时,相当于三年不间断播放的视频量。这份数据集由三大来源构成,各有侧重,相互补充。
第一类是真实机器人遥控操作数据,时长约17800小时,占总量的65%。这部分数据来自AGIBOT-G01人形机器人、ARX机械臂和双臂Franka机器人平台,覆盖家庭、零售和工业场景。这些数据最为珍贵,因为它们直接记录了机械臂在特定控制系统下的每一个关节角度、每一步动作,是机器人能直接"照着做"的高质量示范。
第二类是UMI风格的示范数据,时长约6500小时,占24%。UMI是一种用手持式夹爪设备采集数据的方法——操作者手持一个类似机器人末端执行器的装置,在各种真实环境里进行演示,成本远低于搭建完整的机器人系统。这些数据覆盖的场景更多样,但采集设备毕竟不是真正的机器人,所以动作信号比第一类数据"弱"一些,只能作为较粗糙的行为参考。这部分数据由GenRobot公司的开源数据集提供支持。
第三类是以第一视角拍摄的人类互动视频,时长约3000小时,占11%。这些视频来自EgoDex、EgoVerse以及Xperience-10M等公开数据集,记录了人类在日常生活中处理各种物体的动作。由于视频里的"手"是人手而不是机械手,完全无法直接转换为机器人控制指令,所以这类数据只用来训练"看图预测下一帧会发生什么"的视觉感知能力。
关键的设计思路在于:系统会为每个训练样本打上一张"资质证明",明确标注这条数据能用来监督哪些输出、不能用来监督哪些输出。真实机器人数据可以同时监督视频预测和动作生成两个模块;UMI数据可以提供较弱的动作参考和较强的视觉动态参考;人类视频只能参与视频预测的训练,不参与动作生成的训练。这样,三类数据各司其职,在同一个训练过程里共同塑造模型的能力,而不会因为格式不匹配而互相干扰。
**三、τ?-WM的两张"脸":一张负责做决定,一张负责预想后果**
τ?-WM的核心架构可以用一个驾驶员的比喻来理解。一位经验丰富的老司机在开车时有两套思维在同时运作:一套在想"我现在应该打方向盘、踩油门还是刹车",另一套在想"如果我现在这样做,接下来的路面会变成什么样子"。τ?-WM的两个核心组件,分别对应这两套思维。
第一个组件叫做"视频动作模型"(Video Action Model,简称VAM),它扮演的是"决策者"的角色。给它输入当前时刻来自多个摄像头的画面、一句自然语言指令(比如"把工具放回工具箱"),以及机器人当前的关节状态,它会同时输出两样东西:接下来一段时间里机器人应该执行的连续动作序列,以及对应这些动作之后场景应该变成什么样子的视频帧预测。
VAM的基础架构来自一个已经预训练好的大型视频生成模型——Wan2.2-TI2V-5B,参数量达到50亿。这个模型原本是用来根据图片和文字描述生成视频的,研究团队在它的基础上额外附加了一个专门负责生成动作序列的"动作解码器",参数量约为5亿。两者合在一起,就组成了55亿参数的VAM。视频预测部分和动作生成部分并不是各自独立运作的,而是通过一种叫做"交叉注意力"的机制紧密耦合——动作解码器会主动去查阅视频模型对未来场景的理解,以此为依据生成更贴合实际物理情况的动作。
第二个组件叫做"动作条件视频模拟器"(Action-Conditioned Video Simulator,简称ACVS),它扮演的是"后果评估者"的角色。不同于VAM主动提出"应该做什么",ACVS的任务是回答"如果执行某个特定动作,会发生什么"。你可以把它理解为一个"虚拟沙盘"——研究人员把一个候选动作方案输入进去,ACVS就会模拟出执行这个方案之后,场景会演变成什么样,并且给出一个量化的"任务进展评分",告诉你这个动作到底让任务推进了多少。
ACVS复用了VAM里的视频生成主干网络,但去掉了动作解码器。它不产生新的动作,只负责在给定动作的条件下预测视觉结果和任务进展。为了让模型学会区分"看起来在动"和"真正在完成任务",研究团队特意在训练数据中加入了大量失败轨迹和恢复轨迹——那些最终没有完成任务的操作片段。失败片段对应负面的任务进展分数,成功片段对应正面分数,这让ACVS学会了一套更细腻的评判标准:不只看动作是否流畅,更看动作是否真的朝着目标前进。
从技术实现角度来说,两个组件都采用了"流匹配"训练方式,这是扩散模型的一个变体,能让模型学会如何从随机噪声逐步"雕刻"出清晰的视频帧或者精确的动作序列。通过在损失函数中设置监督掩码,系统可以灵活地根据每条训练数据的性质,决定对哪个输出头施加监督、对哪个输出头关闭梯度,从而实现异质数据的统一训练。
**四、"出手前先算一算":测试时的推理增强策略**
VAM和ACVS的组合,让τ?-WM具备了一项普通机器人策略模型所没有的能力:在真正执行动作之前,先做一轮"预演筛选"。研究团队称这套机制为"测试时推理增强"(Test-Time Computation),其运作方式可以分成两个递进的阶段。
第一阶段是"再去噪一致性评分"(Re-denoising Consistency Score,RCS)。具体做法是:系统先从VAM里采样多个候选动作方案(默认为4个),然后对每个候选方案施加一定程度的随机噪声,再让VAM尝试从这些含噪的候选方案中重新预测出原始动作。如果某个候选方案"足够好"、足够贴近VAM所学到的合理动作分布,那么VAM对它的重新预测误差就会很小;反之,如果某个候选方案很怪异,VAM重建时误差就会很大。基于这个逻辑,系统把重建误差最小的候选方案选出来作为首选。这个过程计算量很小,几乎不增加额外的响应时间。
如果所有候选方案的一致性评分都低于一个预设的门槛,说明这是一个"当前局面比较棘手"的情形,单靠轻量筛选已经不够用了,系统就会进入第二阶段,唤起ACVS来做更深入的评估。
第二阶段是"低质动作修正"(Low-quality Action Rectification,LAR)。ACVS接受所有候选动作作为输入,分别为每个候选方案预测未来的视觉演变过程,并估算各自的任务进展分数。系统选出预计任务进展分数最高的那个未来场景,然后把这个"最优未来场景"作为额外的条件信息,重新去查询VAM,让VAM在这个特定的未来愿景的引导下,生成一个更精确、更有针对性的动作方案。
这个两阶段流程的巧妙之处在于,它的资源消耗是"按需分配"的。绝大多数普通情形只需要第一阶段的轻量筛选就足够了,系统能保持接近实时的响应速度;只有在真正困难的情形下,才会启动第二阶段的"深度模拟",确保在关键时刻有足够的计算资源用于决策质量的提升。
**五、真实机器人上的考验:四项精细长程任务**
为了检验τ?-WM的实际能力,研究团队设计了四项真实机器人操作任务,全部是那种步骤多、精度要求高、稍有差池就全盘失败的类型,而且这四项任务都没有出现在训练数据中,属于"从未见过的新任务"。
第一项任务叫"工具箱"——机器人需要把桌面上散放着的各种工具,对应放回工具箱里各自的卡槽中。第二项任务叫"书包"——机器人需要先把书包的拉链拉开,然后把几件物品放进去,再把拉链拉上。第三项任务叫"水龙头"——机器人需要把一根软管精确对准并接到水龙头接口上,完成连接和固定。第四项任务叫"羽毛球"——机器人需要把羽毛球整齐放进球筒,再把盖子盖上。
这四项任务分别在三种不同的机器人平台上执行:AGIBOT-G01完成工具箱和书包任务,ARX机械臂完成羽毛球任务,双臂Franka完成水龙头任务。这种跨平台的设置有意考察τ?-WM的通用性——同一套模型是否能在不同形态的机器人身上都发挥作用。
对比实验引入了另外两个有代表性的基准系统:π?.5,这是一个由Physical Intelligence公司开发的视觉-语言-动作模型,以广泛的零样本泛化能力著称;Fast-WAM,这是一个专门研究在推理阶段是否真的需要视频预测的系统,它的核心贡献之一是证明在某些情况下去掉视频预测反而能提升效率。
从成功率数据来看,τ?-WM在四项任务的平均成功率上表现最佳。π?.5在工具箱任务上与τ?-WM接近,但在需要更长时间协调和更精细操作的书包、水龙头任务上表现明显下滑。水龙头任务对所有方法来说都是最难的,但τ?-WM在这项任务上也保持了最高的成功率。
除了成功率,研究团队还记录了任务完成的进度分数,以更细腻地反映各步骤的完成情况。有一个有趣的现象值得关注:在工具箱任务中,其他系统往往在把工具塞进槽位之后就"认为完成了",即使工具并没有完全卡到位,还处于松动状态。τ?-WM则会在这之后继续施加额外的压力或推动,直到工具真正固定好,才会结束这一步骤。研究团队认为,这种细节上的差异来源于τ?-WM对未来视觉状态的建模——它不只判断"动作是否执行了",而是判断"最终场景是否达到了期望状态"。
**六、拆开来看:每个设计选择到底值多少**
为了验证各个设计选择的真实贡献,研究团队进行了两组受控消融实验。
第一组实验检验异质数据预训练的价值。研究团队分别训练了只用真实机器人数据和用完整三类数据的两个版本,然后在两种评测协议下对比它们的表现:零样本执行(直接测,不做任何额外微调)和有监督微调后的执行。
零样本评测任务是"把笔放进笔筒",在干净和杂乱两种桌面环境下各自测试。只用机器人数据训练的版本,在干净环境下成功率为0.22,在杂乱环境下降至0.06,平均仅有0.14。而加入UMI和人类视频数据训练后,干净环境下成功率跃升至0.56,杂乱环境下也达到了0.53,平均成功率大幅提升至0.55。这意味着,更多样化的数据让模型对场景的理解能力显著增强,即使没有针对性训练也能举一反三。
微调评测任务是"拿起物体、擦去灰尘、放回桌面",同样分干净和杂乱环境测试。在这种已经针对性训练过的情形下,差距有所收窄,但仍然存在:只用机器人数据的版本干净环境成功率0.85、杂乱环境0.55,平均0.70;加入异质数据后,干净环境达到0.90、杂乱环境0.75,平均0.83。杂乱环境下的收益尤为明显,说明异质预训练增强的是模型在复杂、非理想条件下的鲁棒性,而不只是让它更容易记住训练数据。
第二组实验检验测试时推理增强各阶段的贡献,在"抽纸放进盒子"和"把笔放进盒子"两项任务上进行,并采用严格的单次执行协议——每次只能尝试一次,不允许重试,每种配置重复20次。
不用任何推理增强时,两项任务的平均成功率为0.43。只加入RCS轻量筛选后,平均成功率提升至0.50,说明单纯通过选出"更符合分布"的动作候选,就能过滤掉相当一部分随机采样产生的低质量方案。进一步加入LAR深度修正后,平均成功率再度提升至0.60,证明ACVS的"虚拟预演"确实能在困难情形下给出更有效的修正建议。
作为对比,研究团队还测试了两种同类的推理增强方法:CFG(无分类器引导,在生成过程中通过加权方式强化条件信号)和ACG(动作一致性引导,专门为视觉-语言-动作模型设计的生成引导方法)。结果显示,CFG的平均成功率反而下降至0.20,低于不加任何增强的基线;ACG表现为0.38,略低于基线。τ?-WM的RCS+LAR以0.60的成功率明显超越了这两种方法。研究团队指出,CFG和ACG都是在生成过程内部做文章,而τ?-WM的方法是在生成完成后通过显式评估候选方案来做选择,这种"先生成、再筛选"的范式在机器人操作这个场景下似乎更加有效,尤其是对需要精确对齐的任务(比如把笔放进盒子),提升幅度更为明显。
**七、工程细节:怎样让这套系统在真实机器人上跑起来**
一套研究方案能在论文里展示效果是一回事,能在真实机器人上实时运行又是另一回事。55亿参数的模型,直接部署的响应时间可能令人无法接受。研究团队为此做了一系列工程层面的优化。
基础部署在单块RTX 5090 GPU上进行,默认配置下每次查询从输入到输出动作约需220毫秒。通过缓存文本指令的特征向量(因为指令在一段时间内不会改变,不需要反复重新编码),响应时间可以降至180毫秒左右。
进一步的加速措施包括:交叉注意力的KV缓存——在整个去噪迭代过程中,视频分支提供给动作分支的"键"和"值"张量只需要计算一次,在所有去噪步骤里复用,省去了大量冗余计算;将查询、键、值的矩阵乘法合并为一次操作,减少GPU核函数的调用开销;对动作序列的位置编码进行简化,因为动作序列本身是一维时序,无需用到视频帧那种复杂的多维位置编码。
此外,研究团队还尝试了使用PyTorch 2的动态图编译功能,经过逐块编译优化后,响应时间可以进一步降至140毫秒。不过,编译器级别的图优化和算子融合有时会引入微小的数值差异,而扩散模型的采样过程对数值精度有一定敏感性,这些微小差异可能在某些情况下导致输出略有不同。因此,论文主体实验中报告的所有结果,都是在不开启编译优化的情况下获得的,以保证结果的一致性和可复现性。
每次机器人执行时,系统采用"滑动窗口"式的闭环控制:预测出一段长度为30步的动作序列,执行其中一部分,然后重新感知环境、重新预测,如此循环。这种方式平衡了计划的连贯性和对环境变化的响应能力。
**八、局限与展望:这套系统还差什么**
τ?-WM在论文中坦诚地讨论了当前的局限性和未来的改进方向。
在感知维度上,目前的系统完全依赖视觉信息。对于很多精细操作任务而言,仅凭视觉是不够的——比如判断一个插头是否真的接好了、一个螺丝是否拧紧到位、一块软质材料在接触时的形变情况。触觉反馈在这类任务中能提供视觉无法捕捉的关键信息。研究团队认为,将触觉传感器的数据纳入统一的预测框架,是增强模型在接触密集型任务上能力的重要方向。
在推理质量上,尽管RCS+LAR的组合已经显著优于对比方法,但当前的推理增强机制仍然相对简单。更好的不确定性估计、更长时间跨度的预见能力、以及更高效的动作空间搜索策略,都可能在困难情形下带来进一步的提升。
在时间跨度上,当前的预测窗口相对有限,对于需要跨越数分钟甚至数十分钟才能完成的任务,模型还无法进行足够长远的规划。扩展预测时域,让模型能够"看"到更远的未来,是实现更复杂任务规划的必要条件。
归根结底,τ?-WM做了一件重要的事:它把"想清楚后果再动手"这件原本属于人类直觉的事情,变成了机器人可以计算和优化的明确目标。当机器人不仅知道该怎么动,还知道动了之后会发生什么,并且能据此修正自己的计划,它处理复杂现实世界任务的能力就进入了一个新的台阶。这项研究提供了一个把大规模视频理解能力和机器人执行能力真正统一起来的可行路径,而实验结果也支持了这条路值得继续走下去。
Q&A
Q1:τ?-WM和普通机器人控制系统有什么根本区别?
A:普通的机器人控制系统通常是"看到场景→输出动作"的直接映射,不会预判动作会带来什么后果。τ?-WM的核心区别在于它多了一个"后果预想"的环节:在真正执行动作之前,系统会先在内部模拟"如果这样做,接下来场景会变成什么样",并据此筛选和修正动作方案。这让它在处理需要多步精细配合的任务时,比传统方法更不容易在关键步骤犯错。
Q2:τ?-WM训练用的人类视频数据怎么帮到机器人动作生成?
A:人类视频数据在τ?-WM中只用来训练视觉预测能力,不直接参与动作生成的训练。它的贡献是让模型更深刻地理解"物体在被操作时会怎样运动""接触发生时场景如何变化"——这些视觉动态规律虽然来自人手的操作,但在模型推理时能帮助视频预测模块生成更准确的未来场景,进而给动作决策提供更可靠的参考依据。从零样本实验数据来看,加入人类视频后零样本成功率从0.14大幅提升至0.55。
Q3:测试时推理增强会让机器人反应变慢多少?
A:τ?-WM的推理增强采用了"按需启用"的设计。第一阶段的RCS轻量筛选只需要对已生成的候选动作做额外的噪声扰动和重建计算,额外开销极小,对响应时间的影响可以忽略。只有当所有候选方案的质量都低于可靠性门槛时,才会启动第二阶段的ACVS深度模拟,这会带来更多计算开销。在大多数常规情形下,系统能维持约140到220毫秒的响应延迟,只有在真正困难的关键节点才会付出更多计算时间来换取更好的动作质量。





京公网安备 11011402013531号