当前位置: 首页 » 资讯 » 科技头条 » 正文

哈工大联合团队教会机器人"挑重点学"

IP属地 中国·北京 科技行者 时间:2026-05-20 18:30:21


这项由哈尔滨工业大学、中关村学院、中关村人工智能研究院、华中科技大学、华东师范大学、香港科技大学(广州)、北京航空航天大学及DeepCybo联合开展的研究,以预印本形式发布于2026年5月,论文编号为arXiv:2605.13757,有兴趣深入了解的读者可以通过该编号查询完整原文。

**一、机器人为什么总在"关键时刻"掉链子?**

假设你正在教一个孩子学习如何骑自行车。你把整个练习过程都录了下来,然后把录像从头到尾反复播放给他看。问题来了:这段录像里,大部分时间孩子只是笔直地骑在平坦的路上,而真正需要掌握的技巧——转弯、刹车、起步时保持平衡——只出现了寥寥几次。如果你让孩子把所有时间都花在看"直线骑行"上,他对那几个关键难点的印象自然会被冲淡,练习效果也会大打折扣。

机器人学习操作技能,面临的正是同样的困境。当工程师们用遥控操作的方式给机器人录制示范视频(比如"把瓶子放进柜子里"),这些视频里充斥着大量"无聊"的片段:机械臂慢慢靠近物体、稳稳地端着东西移动、从起点返回终点……这些阶段固然是完整动作的一部分,却对机器人学习核心技能的帮助十分有限。而真正决定任务成败的瞬间——对准位置、接触物体、夹紧手指、松开释放——往往只占整段录像的极小比例。

研究团队对这种现象做了细致的数据统计,结果颇为直观。在一段完整的机器人操作轨迹中,"靠近"和"返回"两个阶段的失败率几乎为零,机器人对这两个环节轻车熟路;然而"对准"阶段的失败率高达16.5%,"抓取"阶段达到31%,"释放"阶段更是攀升到了48.5%。换句话说,机器人在"无聊的直线骑行"上花了太多学习时间,真正容易翻车的"转弯和刹车"反而没得到充分练习。

正是针对这个问题,研究团队提出了一套名为FrameSkip(帧跳过)的训练数据筛选方法。它的核心思路极其简单:在把示范视频喂给机器人之前,先把那些"没什么营养"的帧挑出来跳过,让机器人把宝贵的学习精力集中在真正重要的画面上。

**二、FrameSkip的"阅卷老师"是怎么评分的?**

FrameSkip的工作方式,有点像一位经验丰富的阅卷老师在批改考试试卷时的做法。这位老师不会花同等时间逐字审阅每一行,而是会迅速扫过那些"套路化"的填充内容,把精力集中在最能体现学生真实水平的关键段落上。FrameSkip给每一帧视频打一个"重要性分数",然后按照分数高低决定哪些帧值得保留、哪些帧可以跳过。

这个分数由三个维度共同构成,三者相互补充、缺一不可。

第一个维度叫做"动作变化重要性"(论文中缩写为AVI)。它关注的是机器人的实际动作有没有发生明显变化。具体做法是计算当前时刻的动作指令与前一时刻相比偏差了多少,同时还会向后看几步,考察接下来短时间内动作的总体波动幅度。假设机器人的手臂在一段时间内几乎保持同一个速度和方向匀速移动,那这些帧的AVI分数就会很低;而当手臂突然加速、转向、停下或者手指开始收紧,AVI分数就会大幅飙升。这个维度捕捉的是"行为上的转折点"。

第二个维度叫做"视觉-动作连贯性"(VAC)。仅仅看动作变化还不够,因为有时候机器人的手臂抖了一下,但周围环境根本没有任何变化,那这个"抖动"可能只是噪声,并不意味着发生了什么重要的事情。VAC关注的是:当动作发生变化时,摄像头画面里的环境是否也跟着产生了肉眼可见的变化?研究团队使用了一种名为DINOv2的视觉特征提取工具,把摄像头拍到的图像转换成一组数字来描述当前的视觉状态,然后计算相邻两帧之间视觉变化的幅度与动作变化幅度的比值。如果画面变化大、动作变化相对小,那这一帧很可能正在记录机器人手触碰到物体、物体开始移动这类关键时刻,VAC分数就会偏高。为了节省计算资源,研究团队只从每段视频中均匀抽取最多16帧来提取视觉特征,然后再把分数插值补全到整段轨迹。

第三个维度叫做"任务进度重要性"(TPI)。这个维度源自一个朴素的观察:不同任务的关键时刻往往发生在轨迹的固定位置附近。比如"把瓶子放进柜子"这个任务,抓瓶子通常发生在轨迹中段,放进柜子通常发生在轨迹后段,这个规律在大量示范中都是相似的。研究团队从每个任务的少量训练样本中,手动标注了几个关键阶段中心点在整段轨迹中的相对位置(用0到1之间的数字表示,0是起点,1是终点),然后用一个叫做高斯混合模型的统计工具,把这些位置信息拟合成一条描述"哪些时间点更重要"的概率曲线。当计算某一帧的TPI分数时,只需查询该帧在轨迹中的相对位置对应的概率值即可。值得一提的是,这些手动标注信息只在离线预处理阶段使用,机器人在训练和执行任务时完全不知道它们的存在。当无法获取任务标注时,研究团队还提供了一个不需要任何标注的备选方案:假设轨迹中段附近的帧普遍比较重要,用一条以轨迹中点为中心的钟形曲线来代替。

三个维度的分数分别经过标准化处理后,按照0.6、0.2、0.2的权重加权求和,得到每一帧的综合重要性分数。动作变化是主导信号,视觉-动作连贯性和任务进度信息作为辅助修正。

除了这三个分数维度,FrameSkip还有一个专门的"护身符"机制:无论综合分数如何,凡是机器人手指状态发生明显切换的帧(比如从张开到合拢,或者从合拢到张开),都会被强制保留下来。手指的开合往往精确对应着"抓起"和"放下"这两个最关键的时刻,绝对不能在剪裁中被误删。此外,每段轨迹的第一帧和最后一帧,以及动作变化幅度排在前10%的帧,也都受到强制保护。

**三、保留多少帧才合适?训练怎么安排?**

确定了每一帧的重要性分数之后,FrameSkip需要决定保留多大比例的帧。这个比例叫做"保留率",用r表示,取值在0到1之间。保留率r=0.2意味着只保留最重要的20%的帧,剩下80%被跳过。

具体的筛选逻辑是:计算所有帧分数的第(1-r)分位数作为门槛,只有分数高于这个门槛的帧才进入保留集合。如果保留的帧数太少(导致轨迹碎片化严重),系统会补充一些次优的帧来保证最低数量;如果相邻两个保留帧之间的时间间隔太大,系统也会酌情补充中间的帧,避免轨迹在时间上出现太大的断裂。

整个训练过程分为两个阶段。第一个阶段叫做"热身期":在开始的一段时间里(默认为5000步优化迭代),完全使用原始的完整视频进行训练,就像新员工入职时先全面了解整个工作流程一样,让模型对完整的操作轨迹建立基本的感知。热身期结束后进入第二阶段:绝大部分训练样本来自经过筛选的压缩视频(每5批中有5批来自压缩视频),但每隔5批就插入1批完整视频作为"上下文锚点",防止模型因为长期只看压缩版本而丢失对整体轨迹的理解。

FrameSkip整个方案的一个重要优势是:它只修改数据的读取方式,完全不触碰机器人控制模型本身的结构、损失函数、动作预测方式和推理流程。这意味着它可以直接插入任何现有的机器人学习框架,不需要改造底层系统。实现上,FrameSkip在数据加载器中做了一个索引重映射:当训练程序请求某一帧数据时,加载器会把这个请求映射到最近的一个被保留的帧上,然后用标准的数据读取流程获取该帧的图像、动作和语言指令。每段轨迹的筛选结果被预先计算并缓存下来,训练时直接查表调用,完全不会增加训练时的实时计算负担。

**四、在三个不同的测试场上,成绩究竟如何?**

研究团队在三个截然不同的机器人操作测试场景上验证了FrameSkip的效果,使用了同一套VLA(视觉-语言-动作)模型框架,底层理解模型基于Qwen3-4B-VL-Instruct,动作生成部分使用了一种叫做扩散Transformer的结构,全部实验在8块英伟达H100显卡上完成。

第一个测试场景叫做RoboCasa-GR1,涉及一款名为GR1的双臂仿人机器人,它需要在模拟厨房桌面环境中用两只灵巧的手完成24种不同的拿放任务,比如把瓶子放进柜子、把罐头放进抽屉、把杯子放进微波炉等。这是一个对双手协调能力要求极高的复杂测试。在完整的原始视频训练下,24个任务的平均成功率为47.8%。换用FrameSkip(保留率20%)之后,平均成功率提升到了59.5%,涨幅超过11个百分点。与此同时,其他多个已发表的先进方法在这个测试上的成绩普遍在47%到58%之间,FrameSkip达到的59.5%超越了所有对比方法。

第二个测试场景叫做SimplerEnv,考查的是一款名为WidowX的单臂机器人在模拟环境中执行4个操作任务的能力,包括把勺子放到毛巾上、把胡萝卜放到盘子上、把绿色积木叠到黄色积木上、把茄子放进黄色篮子里。这个测试有个特殊之处:机器人是用现实世界的真实机器人数据(BridgeV2数据集)训练的,然后在虚拟仿真环境中进行测试,考查的是模型从真实世界向模拟世界的泛化能力。在完整视频训练下,4个任务的平均成功率为55.2%。FrameSkip将其提升到了71.55%,涨幅超过16个百分点,同样超越了所有列举的对比方法,包括π0.5(57.1%)、GR00T N1.6(57.1%)等知名系统。单个任务的提升尤为显著,比如"把茄子放进黄色篮子里"这个任务,完整训练的成功率为54.2%,FrameSkip将其推高到了95.83%。

第三个测试场景叫做LIBERO,使用的是一款名为Franka的单臂机器人,在4个不同的任务组合(分别测试空间理解、物体识别、目标导向和长程规划能力)上进行评估,训练数据来自官方提供的专家示范。这个测试的整体成功率本来就已经很高(完整训练的平均成功率为96.5%),FrameSkip仍将其小幅提升到了97.4%,在"长程规划"这个最难的子任务上从92.0%提升到了93.8%。

三个测试场景汇总起来,完整视频训练的宏观平均成功率为66.50%,FrameSkip在保留20%帧的情况下将其提升到了76.15%,整体涨幅接近10个百分点。

**五、如果换成随机跳帧、只看动作变化,效果又如何?**

研究团队设计了一系列消融实验,逐步拆解FrameSkip各个组成部分的贡献,用数据回答"到底是哪个环节真正起了作用"。

在保留率的实验中,团队在RoboCasa-GR1测试上尝试了从10%到100%(即完整视频)的一系列保留率。结果表明,所有低于100%的保留率都优于完整视频训练,说明光是"减少训练数据"本身就有一定效果,但背后的真正原因是压缩版本减少了冗余帧的干扰。最佳保留率在50%附近(成功率59.75%),20%的保留率也能达到几乎同等的效果(59.50%)。过度压缩(10%)会导致轨迹信息丢失太多,成功率下降到55%。

在评分维度的实验中,团队比较了五种配置,所有配置使用相同的保留率和训练计划,只改变打分规则。随机跳帧(不依赖任何轨迹信息)在三个测试场上的平均成功率为66.83%;仅使用动作变化(AVI)得到69.53%;在AVI基础上加入任务进度(AVI+TPI)得到71.44%;在AVI基础上加入视觉-动作连贯性(AVI+VAC)得到73.66%;三者全部结合(AVI+VAC+TPI)得到74.51%;在此基础上再加上手指状态切换帧的强制保护(完整FrameSkip)最终得到76.15%。从这个递进关系可以看出,每一个组件都在往前推进成绩,而且增益并不是某一个维度单打独斗的结果。随机跳帧和AVI的差距(66.83% vs 69.53%)说明,仅仅减少训练帧数量是不够的,真正有价值的是挑对了帧。

在热身步数的实验中,团队测试了2500步到15000步之间的多种设置。结果显示,成功率的最高点出现在5000步热身时(59.50%),但整个范围内的波动幅度不超过1.25个百分点,说明FrameSkip对这个超参数的依赖性很低,使用者不需要花大力气调整热身长度。

**六、FrameSkip的边界和局限在哪里?**

研究论文中并没有专门辟出一个"局限性"章节,但从方法描述中可以梳理出几个值得关注的边界条件。

任务进度重要性(TPI)的数据自适应版本需要人工标注少量训练轨迹中的关键阶段位置。虽然标注量不大(仅使用5%的训练轨迹,只需标出阶段中心的相对位置而非逐帧标注),但在完全没有任何人工介入的场景下只能退而求其次使用那个"假设重要时刻在中间"的简化版本,可能会损失一部分精度。

视觉-动作连贯性(VAC)的计算依赖DINOv2视觉编码器,需要在训练开始前离线跑一遍全部数据。对于规模极大的数据集来说,这个预处理步骤需要一定的计算时间,尽管已经通过稀疏采样(每段视频最多取16帧)将计算量降到可接受的范围。

此外,所有实验都在仿真环境中进行,真实世界机器人上的表现仍有待验证。不同机器人平台、不同任务类型对"哪些帧最重要"的定义可能有所不同,当前的超参数(三个权重系数、保留率等)是否需要针对具体任务调整,还需要更多实践来验证。

说到底,FrameSkip的贡献在于把一个原本被默默接受的训练惯例——"所有帧同等重要"——摆到了台面上,并用扎实的实验数据说明这个假设是错的,而且纠正这个错误不需要改造任何昂贵的底层系统,只需要在数据进入训练流程之前做一次聪明的筛选。

这项研究提示了一个更宏观的思考方向:在机器人学习领域,我们通常把注意力集中在模型架构越来越复杂、训练数据规模越来越大这两个轴上。但或许,如何更聪明地利用已有的数据——搞清楚数据里哪些部分真正有营养、哪些只是填充——同样是一个值得认真对待的研究维度。有兴趣深入了解的读者,可以通过arXiv:2605.13757查阅完整论文,研究团队也已在GitHub和Hugging Face上公开了训练代码、帧筛选流水线和模型权重,供研究者复现和扩展。

Q&A

Q1:FrameSkip在训练时只保留20%的帧,机器人会不会因为"看的东西太少"而学得更差?

A:恰恰相反。实验结果显示,保留20%的重要帧反而让机器人在三个测试场景上的平均成功率从66.50%提升到了76.15%。原因在于,被保留的那20%集中了大量动作发生显著变化、视觉环境明显改变、以及任务关键阶段的帧,而被跳过的80%大多是机器人匀速移动、没有新信息的"冗余帧"。减少冗余帧的重复学习,反而让模型对真正重要的时刻获得了更充分的训练。

Q2:FrameSkip对机器人控制模型的结构有没有要求?

A:FrameSkip完全不修改机器人控制模型本身,它只在数据读取阶段做帧筛选和索引重映射,模型的结构、动作预测方式、损失函数和推理流程全部保持不变。这意味着它可以直接套用在不同类型的机器人学习框架上,不需要针对特定模型进行适配。

Q3:FrameSkip的帧筛选需要大量人工标注吗?

A:基本不需要。大部分评分工作是完全自动化的:动作变化重要性直接从动作数据计算,视觉-动作连贯性由视觉编码器自动提取特征后计算,手指切换帧由程序自动识别。唯一需要少量人工的是任务进度重要性的数据自适应版本,只需要标注约5%训练轨迹中几个关键阶段的大致位置(不是逐帧标注)。如果连这点标注也无法提供,还有一个完全免标注的简化版本可以使用。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。