当前位置: 首页 » 资讯 » 科技头条 » 正文

港大团队开源FASTER,让VLA模型真正实现「即刻响应」

IP属地 中国·北京 机器之心Pro 时间:2026-05-14 16:25:58



本文的第一作者为香港大学博士生陆宇翔,团队包括香港大学博士后刘哲、香港大学博士生范娴喆、杨振亚、侯京华、李俊奕、丁凯欣,通讯作者为香港大学助理教授赵恒爽。

具身智能正以前所未有的速度发展,VLA 模型展现出越来越强的动作和泛化能力。然而,当我们真正把 VLA 模型部署到物理世界时,一个核心挑战浮出水面:实时性。

想象一下让机器人打乒乓球:球高速飞来时,哪怕只有 100 毫秒的延迟,也可能意味着错过最佳击球时机。对于真实世界中的机器人来说,动作不仅要「做得准」,还必须「反应得快」。

现有实时 VLA 方法大多关注如何让动作更连续、更平滑。但这些方法往往忽略了动态环境中更关键的一点:机器人到底能多快根据新变化做出反应?

来自香港大学和大晓机器人的研究团队提出了FASTERFastActionSampling for ImmediaTEReaction),首次系统性地重新审视了动作分块策略中的反应延迟问题,并提出了一种面向流匹配 VLA 模型的快速动作采样方法。通过将即时动作的采样过程压缩至单步完成,显著降低了机器人开始行动所需的时间。

FASTER 是一个即插即用方案:无需修改模型架构,也无需额外训练成本。目前代码已开源,欢迎学术界和工业界试用,共同推动具身智能在真实场景的落地。



论文链接:https://arxiv.org/abs/2603.19199项目主页:https://innovator-zero.github.io/FASTER/开源代码:https://github.com/innovator-zero/FASTER

VLA 模型是如何运行的?

目前主流的 VLA 模型,例如 π0.5、X-VLA 等,采用的是动作分块(Action Chunking)策略。模型不是每次只预测下一个动作,而是一次性预测未来几十步的连续动作。这样做的好处是,机器人可以获得更长时间范围内的动作计划,执行起来也更加平滑。

但 VLA 面对着一个现实问题:模型推理速度往往跟不上机器人控制频率。

在真实机器人系统中,控制器通常以固定频率运行,例如 30Hz,也就是每 33.3 毫秒执行一次控制指令。但 VLA 的推理基本无法在一个控制周期内完成,即使用 RTX 4090、5090 这类高端 GPU,生成一个动作块也可能需要远超一个控制周期的时间。

因此,机器人端侧通常会采用两类推理管线:同步推理异步推理



同步推理:机器人执行完当前动作块后,会停下来等待模型生成下一段动作。这样做可以避免观测状态和执行状态之间出现偏差,即感知-执行差异。但问题也很明显:机器人会频繁停顿,动作不连贯,任务表现也会受到影响。异步推理:机器人会提前开始下一段动作的推理。模型在生成新动作的同时,机器人继续执行当前还没有执行完的动作。这样可以消除动作块之间的停顿,让机器人运动更加丝滑。为进一步缓解感知-执行差异,RTC、VLASH 等方法会将重叠时间内已经规划好的动作作为先验输入给 VLA,使模型能够生成符合当前运动惯性的后续动作。

Rethinking:什么才是真正的「反应能力」?

异步推理解决了动作卡顿的问题,但它真的提升了 VLA 的反应能力吗?

本文的一个关键洞见是:反应时间并不是一个简单等于模型推理延迟的常数,而应该被建模为一个随机变量。

这是因为真实世界中的外部事件是随机发生的。

如果事件恰好发生在模型开始推理之前,那么机器人可以在本轮推理完成后尽快响应,反应最快。但如果事件刚好发生在模型开始推理之后,那么这次推理已经「错过」了这个新事件,只能等到下一轮推理完成后才能响应。



论文进一步分析指出,从期望反应时间来看,普通异步推理相比同步推理的收益其实相当有限:仅仅缩短了 0.5 倍的推理延迟。也就是说,如果推理延迟不变,单纯改成异步并不能从根本上解决问题。

这就引出了本文提出的一个新指标:TTFA(Time to First Action)

在动作分块策略中,机器人并不需要等待整个动作块都生成完才能开始动。真正决定机器人能否快速响应的,是第一个动作什么时候能够生成出来。

这和 LLM 中的 TTFT(Time to First Token)很类似,用户感受到的响应速度很大程度上取决于第一个 token 出现得有多快。

因此,FASTER 认为:要提升 VLA 的真实反应能力,不能只做异步推理,还必须同时压缩 TTFA,并提高推理-执行闭环的频率。

VLA 的瓶颈在哪里?

当前许多 VLA 都采用基于流匹配(Flow Matching)或 Diffusion 的动作专家来生成动作。

这类模型通常采用恒定时间步调度,动作块中的每一个动作,无论是马上要执行的第一个动作,还是几十步之后才会执行的远期动作,都会使用相同数量的采样步。

如果模型默认使用 10 步采样,那么它必须完成全部 10 步采样之后,才能输出第一个动作。这就形成了一个明显的反应瓶颈:机器人明明只需要第一个动作就可以开始动,却必须等待整个动作块完成全部采样。

于是,一个很自然的问题出现了:为什么近期动作和远期动作需要同等程度的「精雕细琢」?



FASTER 对动作采样过程进行了实验分析,并发现动作块内部存在明显的非均匀性。具体来说,论文使用了平直度(Straightness)指标来衡量流匹配采样路径的弯曲程度。路径越接近直线,说明这个动作越容易通过少量采样步准确生成。

实验结果显示:

早期动作的采样路径更接近直线插值;早期动作的中间估计结果与最终输出之间的偏差更小;早期动作的生成复杂度明显低于远期动作。

这也符合物理世界中的直觉:基于当前状态,下一瞬间该怎么动通常约束更强、变化更小;而越远期的动作受到更多未来不确定性的影响,自然更难预测。

既然近期动作更容易预测,而又直接决定机器人的反应速度,那么为什么不让模型优先生成这些动作?

核心创新:Horizon-Aware Schedule



为了解决上述问题,FASTER 提出了Horizon-Aware Schedule(HAS),思想是解耦动作块中不同时间位置动作的采样进度。HAS 会为动作块中的每一个动作分配一个不同的完成时刻(hit time)。

近期动作使用较少的采样步数,优先生成;远期动作仍然保留较完整的采样过程,保持动作轨迹质量。

这样,模型不再需要等到整个动作块全部采样完成后才输出动作,而是可以先把最关键的即时动作生成出来,让机器人尽快开始响应。

混合调度策略:让预训练模型平滑适应 HAS

直接用 HAS 去微调一个预训练 VLA 模型,可能会带来两个问题。

第一个问题是,现有预训练模型通常是在恒定时间步调度下训练出来的。如果微调时突然切换成动态变化的 HAS,会额外拉大预训练和微调之间的差距。

第二个问题是,在训练中随机采样时间步时,对于近期动作来说,在 HAS 下它们对应的局部时间步有较大概率变成 0,使得这些动作几乎总是直接使用真实动作作为输入,模型反而学不到如何自己生成这些动作。

为了解决这两个问题,FASTER 提出了一种混合调度策略(Mixed Scheduling Strategy)。

具体做法是:给定一个混合概率 p,每个训练样本都有 p 的概率使用 HAS,同时也有 1-p 的概率保留原来的恒定时间步调度。模型在微调时既能学习新的 HAS 时间步参数化方式,也不会完全丢掉预训练阶段熟悉的固定时间步设置。

最重要的是,这个过程不需要修改模型结构,也不会引入额外训练成本,可以直接整合进现有 VLA 的微调流程。

流式推理接口:生成一个,执行一个

有了 HAS 之后,动作可以被渐进式生成。FASTER 因此进一步设计了一个流式客户端-服务器接口(Streaming Client-Server Interface)。

在模型端,一旦某个动作完成采样,就会立即发送给机器人控制器,模型则继续采样和完善后续动作。

机器人客户端则会持续监听来自模型的新动作,并将接收到的动作加入缓冲区,机器人可以一边执行已经收到的动作,一边等待后续动作到来。

此外,FASTER 还引入了早停机制。当执行范围内需要的动作都已完成采样时,模型可以提前终止剩余采样步骤,直接进入下一轮推理准备。这等价于缩短了一次推理-执行周期,从而进一步提高闭环响应频率。

因此,FASTER 不只是降低了第一个动作的生成延迟,也提高了整个系统的更新频率。

实验结果:更低 TTFA,更快反应

FASTER 在两种 GPU 平台上进行了真实测速实验,分别是高性能的 RTX 4090 和消费级的 RTX 4060。



结果显示,FASTER 可以显著降低 TTFA 和期望反应时间。尤其是在 RTX 4060 上,X-VLA 的 TTFA 从 399.5 ms 降低到 129.2 ms,达到 3 倍以上加速;期望反应时间也从 599.5 ms 降低到 229.2 ms,提升约 2.6 倍。对于 π0.5,FASTER 同样带来了稳定提升。



由于真实环境中的外部事件是随机发生的,论文进一步统计了不同方法在随机事件下谁更可能反应更快。

结果表明,FASTER 相比同步推理有超过 80% 的概率反应更快;相比普通异步推理也具有明显优势。尤其是在 X-VLA 上,FASTER 达到了 100% 的优势概率。这意味着 FASTER 的反应时间上界甚至低于基线方法的下界,形成了严格的性能支配。

VLA 打乒乓球:反应速度决定能不能接到球

在乒乓球任务中,机器人需要根据高速飞来的乒乓球及时调整球拍姿态,并在合适的位置和角度完成击球。这不仅要求动作准确,也对反应速度提出了极高要求。





实验结果显示:

同步推理方法由于反应太慢,几乎无法接到球。普通异步方法虽然动作更连续,但反应速度仍然不足,导致回球角度不佳或击球无力。使用 FASTER 后,机器人能够更早开始调整球拍姿态,在接触球的一瞬间保持更合理、更有力的击球角度,因此最终得分显著领先。

这个结果很好地说明了一个事实:在动态交互任务中,动作质量不仅取决于预测是否准确,还取决于这个动作是否来得及执行。

日常操作任务:更快,也更稳定

除了高动态任务,本文也在抓放饮料和叠毛巾等日常操作任务中进行了测试。





在这些任务中,反应速度并不像乒乓球那样关键,但实时交互仍然会影响任务完成效率和动作稳定性。

FASTER 在这些任务中也能实现更快、更稳定的运动表现。相比同步推理,它减少了动作块之间的停顿;相比普通异步推理,它进一步提升了闭环更新频率,使机器人能够更及时地根据当前状态调整动作。

仿真评测:加速不以牺牲质量为代价

为了验证 HAS 是否会影响动作预测质量,本文还在 LIBERO 和 CALVIN 两个常用仿真基准上进行了测试。



需要注意的是,仿真基准本身通常不会直接受到推理延迟的影响,因此这些实验主要用于评估:FASTER 在加速采样后,是否仍然能保持原模型的任务性能。

结果显示,FASTER 基本保持了与原始模型相当的性能,仅在个别任务上出现轻微下降。这说明 HAS 虽然对近期动作采用了更激进的采样策略,但整体上仍能维持较高的动作生成质量。

总结

当前具身智能研究大多关注如何让机器人在更复杂的任务中「做得更好」,FASTER 则提出了一个同样重要但被低估的问题:在物理世界中部署 VLA 模型时,「多快能开始动」与「动作做得多准」同样关键。

传统评价往往更关注动作预测精度或任务成功率,但在动态交互场景中,反应速度本身就可能决定动作是否还有意义。对于乒乓球、动态抓取等任务来说,一个再准确的动作,如果来得太晚,也就失去了价值。

FASTER 通过 Horizon-Aware Schedule 将即时动作的采样压缩到单步完成,并结合流式推理接口和早停机制,同时降低 TTFA、提高推理-执行闭环频率。在真机实验中,显著提升了 VLA 的反应能力,尤其是在消费级 GPU 上展现出很强的实际部署价值。

总体来看,FASTER 为实时 VLA 和通用具身智能的落地提供了一条简单、有效且可扩展的路径:不是让整个动作块都更快生成,而是让机器人最需要的第一个动作先到。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。