港大团队开源FASTER，让VLA模型真正实现「即刻响应」

IP属地中国·北京 机器之心Pro 时间：2026-05-14 16:25:58

本文的第一作者为香港大学博士生陆宇翔，团队包括香港大学博士后刘哲、香港大学博士生范娴喆、杨振亚、侯京华、李俊奕、丁凯欣，通讯作者为香港大学助理教授赵恒爽。
具身智能正以前所未有的速度发展，VLA 模型展现出越来越强的动作和泛化能力。然而，当我们真正把 VLA 模型部署到物理世界时，一个核心挑战浮出水面：实时性。
想象一下让机器人打乒乓球：球高速飞来时，哪怕只有 100 毫秒的延迟，也可能意味着错过最佳击球时机。对于真实世界中的机器人来说，动作不仅要「做得准」，还必须「反应得快」。
现有实时 VLA 方法大多关注如何让动作更连续、更平滑。但这些方法往往忽略了动态环境中更关键的一点：机器人到底能多快根据新变化做出反应？
来自香港大学和大晓机器人的研究团队提出了FASTERFastActionSampling for ImmediaTEReaction），首次系统性地重新审视了动作分块策略中的反应延迟问题，并提出了一种面向流匹配 VLA 模型的快速动作采样方法。通过将即时动作的采样过程压缩至单步完成，显著降低了机器人开始行动所需的时间。
FASTER 是一个即插即用方案：无需修改模型架构，也无需额外训练成本。目前代码已开源，欢迎学术界和工业界试用，共同推动具身智能在真实场景的落地。

论文链接：https://arxiv.org/abs/2603.19199项目主页：https://innovator-zero.github.io/FASTER/开源代码：https://github.com/innovator-zero/FASTER
VLA 模型是如何运行的？
目前主流的 VLA 模型，例如 π0.5、X-VLA 等，采用的是动作分块（Action Chunking）策略。模型不是每次只预测下一个动作，而是一次性预测未来几十步的连续动作。这样做的好处是，机器人可以获得更长时间范围内的动作计划，执行起来也更加平滑。
但 VLA 面对着一个现实问题：模型推理速度往往跟不上机器人控制频率。
在真实机器人系统中，控制器通常以固定频率运行，例如 30Hz，也就是每 33.3 毫秒执行一次控制指令。但 VLA 的推理基本无法在一个控制周期内完成，即使用 RTX 4090、5090 这类高端 GPU，生成一个动作块也可能需要远超一个控制周期的时间。
因此，机器人端侧通常会采用两类推理管线：同步推理异步推理

同步推理：机器人执行完当前动作块后，会停下来等待模型生成下一段动作。这样做可以避免观测状态和执行状态之间出现偏差，即感知-执行差异。但问题也很明显：机器人会频繁停顿，动作不连贯，任务表现也会受到影响。异步推理：机器人会提前开始下一段动作的推理。模型在生成新动作的同时，机器人继续执行当前还没有执行完的动作。这样可以消除动作块之间的停顿，让机器人运动更加丝滑。为进一步缓解感知-执行差异，RTC、VLASH 等方法会将重叠时间内已经规划好的动作作为先验输入给 VLA，使模型能够生成符合当前运动惯性的后续动作。
Rethinking：什么才是真正的「反应能力」？
异步推理解决了动作卡顿的问题，但它真的提升了 VLA 的反应能力吗？
本文的一个关键洞见是：反应时间并不是一个简单等于模型推理延迟的常数，而应该被建模为一个随机变量。
这是因为真实世界中的外部事件是随机发生的。
如果事件恰好发生在模型开始推理之前，那么机器人可以在本轮推理完成后尽快响应，反应最快。但如果事件刚好发生在模型开始推理之后，那么这次推理已经「错过」了这个新事件，只能等到下一轮推理完成后才能响应。

论文进一步分析指出，从期望反应时间来看，普通异步推理相比同步推理的收益其实相当有限：仅仅缩短了 0.5 倍的推理延迟。也就是说，如果推理延迟不变，单纯改成异步并不能从根本上解决问题。
这就引出了本文提出的一个新指标：TTFA（Time to First Action）
在动作分块策略中，机器人并不需要等待整个动作块都生成完才能开始动。真正决定机器人能否快速响应的，是第一个动作什么时候能够生成出来。
这和 LLM 中的 TTFT（Time to First Token）很类似，用户感受到的响应速度很大程度上取决于第一个 token 出现得有多快。
因此，FASTER 认为：要提升 VLA 的真实反应能力，不能只做异步推理，还必须同时压缩 TTFA，并提高推理-执行闭环的频率。
VLA 的瓶颈在哪里？
当前许多 VLA 都采用基于流匹配（Flow Matching）或 Diffusion 的动作专家来生成动作。
这类模型通常采用恒定时间步调度，动作块中的每一个动作，无论是马上要执行的第一个动作，还是几十步之后才会执行的远期动作，都会使用相同数量的采样步。
如果模型默认使用 10 步采样，那么它必须完成全部 10 步采样之后，才能输出第一个动作。这就形成了一个明显的反应瓶颈：机器人明明只需要第一个动作就可以开始动，却必须等待整个动作块完成全部采样。
于是，一个很自然的问题出现了：为什么近期动作和远期动作需要同等程度的「精雕细琢」？

FASTER 对动作采样过程进行了实验分析，并发现动作块内部存在明显的非均匀性。具体来说，论文使用了平直度（Straightness）指标来衡量流匹配采样路径的弯曲程度。路径越接近直线，说明这个动作越容易通过少量采样步准确生成。
实验结果显示：
早期动作的采样路径更接近直线插值；早期动作的中间估计结果与最终输出之间的偏差更小；早期动作的生成复杂度明显低于远期动作。
这也符合物理世界中的直觉：基于当前状态，下一瞬间该怎么动通常约束更强、变化更小；而越远期的动作受到更多未来不确定性的影响，自然更难预测。
既然近期动作更容易预测，而又直接决定机器人的反应速度，那么为什么不让模型优先生成这些动作？
核心创新：Horizon-Aware Schedule

为了解决上述问题，FASTER 提出了Horizon-Aware Schedule（HAS），思想是解耦动作块中不同时间位置动作的采样进度。HAS 会为动作块中的每一个动作分配一个不同的完成时刻（hit time）。
近期动作使用较少的采样步数，优先生成；远期动作仍然保留较完整的采样过程，保持动作轨迹质量。
这样，模型不再需要等到整个动作块全部采样完成后才输出动作，而是可以先把最关键的即时动作生成出来，让机器人尽快开始响应。
混合调度策略：让预训练模型平滑适应 HAS
直接用 HAS 去微调一个预训练 VLA 模型，可能会带来两个问题。
第一个问题是，现有预训练模型通常是在恒定时间步调度下训练出来的。如果微调时突然切换成动态变化的 HAS，会额外拉大预训练和微调之间的差距。
第二个问题是，在训练中随机采样时间步时，对于近期动作来说，在 HAS 下它们对应的局部时间步有较大概率变成 0，使得这些动作几乎总是直接使用真实动作作为输入，模型反而学不到如何自己生成这些动作。
为了解决这两个问题，FASTER 提出了一种混合调度策略（Mixed Scheduling Strategy）。
具体做法是：给定一个混合概率 p，每个训练样本都有 p 的概率使用 HAS，同时也有 1-p 的概率保留原来的恒定时间步调度。模型在微调时既能学习新的 HAS 时间步参数化方式，也不会完全丢掉预训练阶段熟悉的固定时间步设置。
最重要的是，这个过程不需要修改模型结构，也不会引入额外训练成本，可以直接整合进现有 VLA 的微调流程。
流式推理接口：生成一个，执行一个
有了 HAS 之后，动作可以被渐进式生成。FASTER 因此进一步设计了一个流式客户端-服务器接口（Streaming Client-Server Interface）。
在模型端，一旦某个动作完成采样，就会立即发送给机器人控制器，模型则继续采样和完善后续动作。
机器人客户端则会持续监听来自模型的新动作，并将接收到的动作加入缓冲区，机器人可以一边执行已经收到的动作，一边等待后续动作到来。
此外，FASTER 还引入了早停机制。当执行范围内需要的动作都已完成采样时，模型可以提前终止剩余采样步骤，直接进入下一轮推理准备。这等价于缩短了一次推理-执行周期，从而进一步提高闭环响应频率。
因此，FASTER 不只是降低了第一个动作的生成延迟，也提高了整个系统的更新频率。
实验结果：更低 TTFA，更快反应
FASTER 在两种 GPU 平台上进行了真实测速实验，分别是高性能的 RTX 4090 和消费级的 RTX 4060。

结果显示，FASTER 可以显著降低 TTFA 和期望反应时间。尤其是在 RTX 4060 上，X-VLA 的 TTFA 从 399.5 ms 降低到 129.2 ms，达到 3 倍以上加速；期望反应时间也从 599.5 ms 降低到 229.2 ms，提升约 2.6 倍。对于 π0.5，FASTER 同样带来了稳定提升。

由于真实环境中的外部事件是随机发生的，论文进一步统计了不同方法在随机事件下谁更可能反应更快。
结果表明，FASTER 相比同步推理有超过 80% 的概率反应更快；相比普通异步推理也具有明显优势。尤其是在 X-VLA 上，FASTER 达到了 100% 的优势概率。这意味着 FASTER 的反应时间上界甚至低于基线方法的下界，形成了严格的性能支配。
VLA 打乒乓球：反应速度决定能不能接到球
在乒乓球任务中，机器人需要根据高速飞来的乒乓球及时调整球拍姿态，并在合适的位置和角度完成击球。这不仅要求动作准确，也对反应速度提出了极高要求。

实验结果显示：
同步推理方法由于反应太慢，几乎无法接到球。普通异步方法虽然动作更连续，但反应速度仍然不足，导致回球角度不佳或击球无力。使用 FASTER 后，机器人能够更早开始调整球拍姿态，在接触球的一瞬间保持更合理、更有力的击球角度，因此最终得分显著领先。
这个结果很好地说明了一个事实：在动态交互任务中，动作质量不仅取决于预测是否准确，还取决于这个动作是否来得及执行。
日常操作任务：更快，也更稳定
除了高动态任务，本文也在抓放饮料和叠毛巾等日常操作任务中进行了测试。

在这些任务中，反应速度并不像乒乓球那样关键，但实时交互仍然会影响任务完成效率和动作稳定性。
FASTER 在这些任务中也能实现更快、更稳定的运动表现。相比同步推理，它减少了动作块之间的停顿；相比普通异步推理，它进一步提升了闭环更新频率，使机器人能够更及时地根据当前状态调整动作。
仿真评测：加速不以牺牲质量为代价
为了验证 HAS 是否会影响动作预测质量，本文还在 LIBERO 和 CALVIN 两个常用仿真基准上进行了测试。

需要注意的是，仿真基准本身通常不会直接受到推理延迟的影响，因此这些实验主要用于评估：FASTER 在加速采样后，是否仍然能保持原模型的任务性能。
结果显示，FASTER 基本保持了与原始模型相当的性能，仅在个别任务上出现轻微下降。这说明 HAS 虽然对近期动作采用了更激进的采样策略，但整体上仍能维持较高的动作生成质量。
总结
当前具身智能研究大多关注如何让机器人在更复杂的任务中「做得更好」，FASTER 则提出了一个同样重要但被低估的问题：在物理世界中部署 VLA 模型时，「多快能开始动」与「动作做得多准」同样关键。
传统评价往往更关注动作预测精度或任务成功率，但在动态交互场景中，反应速度本身就可能决定动作是否还有意义。对于乒乓球、动态抓取等任务来说，一个再准确的动作，如果来得太晚，也就失去了价值。
FASTER 通过 Horizon-Aware Schedule 将即时动作的采样压缩到单步完成，并结合流式推理接口和早停机制，同时降低 TTFA、提高推理-执行闭环频率。在真机实验中，显著提升了 VLA 的反应能力，尤其是在消费级 GPU 上展现出很强的实际部署价值。
总体来看，FASTER 为实时 VLA 和通用具身智能的落地提供了一条简单、有效且可扩展的路径：不是让整个动作块都更快生成，而是让机器人最需要的第一个动作先到。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

成都企业选择大模型本地化部署的关键决策点

陕文投联手华为：全球首个商用多模态文旅大模型规模化应用

朱雀飞天、千帆组网，可回收火箭迎来“验证时刻”

2026年骁龙峰会定档9月22-24日：骁龙8 Elite Gen6系列将登场！高通首款2nm

苹果想买长鑫芯片韩国机构泼冷水：先排队等中国厂商吃饱

为挽救就业岗位和本土产能，大众股东呼吁在德国生产中国特供车型

全站最新

成都企业选择大模型本地化部署的关键决策点

陕文投联手华为：全球首个商用多模态文旅大模型规模化应用

朱雀飞天、千帆组网，可回收火箭迎来“验证时刻”

2026年骁龙峰会定档9月22-24日：骁龙8 Elite Gen6系列将登场！高通首款2nm

热门推荐

诺华用19亿美元认输

豆包撕掉了“体面”，然后呢？

被吐槽多年的高铁餐饮，开始卖火锅了

本轮牛市走到哪儿了，未来剧本会是怎样？

15块洗剪吹，京东开启了“洗车”大战

中年男人撑起的比音勒芬，想靠年轻人赚300亿

中兴通讯在南京成立半导体技术公司

万达商业被执行8亿

京东在济南成立新信息技术公司

广州金控集团成立新合伙企业

OpenClaw原生移动应用双平台上线手机端畅享专属AI助手新体验

物理AI元年启幕：万亿市场待掘金，中国AI公司以端侧原生破局突围

筑牢技术护城河，Meta 严禁内部工程师使用 Claude 与 Codex

告别“长文本焦虑”：小红书 RedKnot 推理引擎开源，长上下文处理效率翻倍

成都企业选择大模型本地化部署的关键决策点