henry 发自 凹非寺
量子位 | 公众号 QbitAI
别人家的“龙虾”还在盯着屏幕玩电脑,理想已经把“龙虾”带上车了!
最近,理想发布了全新的流式视频理解与具身智能统一的Agent框架——
StreamingClaw。
![]()
在保持与OpenClaw框架完全兼容的基础上,StreamingClaw原生支持实时的多模态流式交互。
这意味着,系统在面对视觉输入时,不再将其视为死板的离线视频文件,而是像人类感知世界一样,实时捕获流数据(Stream)并进行即时推理。
比如,这只虾不仅能在驾驶中盯着你,检测可疑动作(哈欠、玩手机)并主动预警。
还能在你取车的时候,主动跟你打招呼。
与此同时,StreamingClaw还引入了自主多代理调度机制。
依托主-从代理的紧密协同,它不仅能自主完成复杂的任务规划与逻辑决策,更深度集成了丰富的工具及技能库,在现实场景中实现了指令驱动的具身智能。
在StreamingClaw的加持下,机器人与终端设备实现了极低延迟的“边看、边记、边行动”:
比如,它可以实时上识别你手持的物品,帮你解题。
不难看出,在这些复杂场景中,StreamingClaw的核心硬实力在于实时推理与瞬时响应。
而支撑这只“理想龙虾”在物理世界灵活行动的,正是一整套围绕“流式架构”展开的系统设计。
从“离线处理”到“主动闭环”
不同于大模型等对延迟(相对)不敏感的场景,在具身智能、AI硬件及智能座舱等领域,系统往往需要在毫秒级完成感知—决策—执行的闭环:
感知(看):通过摄像头捕获环境;决策(想):AI大脑规划对策;执行(做):驱动硬件或指令,并根据动作后的新环境再次循环。
然而,现有的视频Agent在处理实时感知(流式感知)时往往面临着延迟较高的问题。
之所以这样是因为,传统方法通常将视频视为完整文件处理。长视频的计算量呈指数级爆炸,难以实时响应;
同时,模型难以持续追踪长时程信息,导致决策草率、频繁遗忘,甚至直接任务失败。
针对这些问题,以往的研究尝试通过视觉压缩或Token精简来缓解负载,但同时也导致了细节丢失,无法准确定位等问题。
更致命的是,传统模型大多是被动触发:你不问,它不动,缺乏对环境风险的主动感知。
StreamingClaw通过“增量计算”改写了这一逻辑。
它不再机械地重复处理历史画面,而是将环境的细微变化视为增量信号进行推理更新。
这意味着,它不仅能“看”得更准、记”得更久,还能在思考过程中自主调用工具,实现从感知到物理干预的真正闭环。
这就是所谓的流式推理,与处理现成文件的“离线模式”不同,其要求AI必须像观看直播一样,在数据不断涌入的同时即时分析,不允许任何严重滞后。
接下来,我们具体来看StreamingClaw是怎么做到的。
具身智能的流式交互引擎
总体来看,StreamingClaw是一个高度协同的多代理(Multi-agent)架构。它通过一套标准化的流水线,打破了不同硬件之间的壁垒:
![]()
首先,无论是智能眼镜、自动驾驶芯片还是具身机器人,所有多模态流式输入都会通过时间戳对齐与共享流式缓存*进行标准化处理,确保AI拥有统一的“时间尺度”。
其次,核心大脑StreamingReasoning(主代理)负责实时感知与规划;StreamingMemory与StreamingProactivity(从代理)则分别提供长效记忆支撑与主动交互决策。
最后,代理生成的决策指令会直接驱动工具箱与技能库。
从简单的视频剪切到复杂的具身动作序列,执行结果会即时反馈至代理,形成一套完整的“感知—决策—执行”闭环。
这种架构让StreamingClaw不仅能听懂指令,更能通过自主规划与工具调用,真正深入现实场景解决问题。
流式推理::StreamingReasoning
流式推理(StreamingReasoning)主要针对具有连续输入输出的流视频理解场景。
其核心目标是在极低延迟的约束下,实现对现实世界的实时感知、理解与推理。
![]()
在实时流式推理方面,系统会将输入的视频流拆分为细粒度片段,并通过动态滑动窗口严格控制上下文范围,从源头上避免无效信息的堆积。
在此基础上,结合经过剪枝优化的流式KV-Cache机制,StreamingReasoning可以持续进行高效的增量解码,使整体推理过程始终紧贴视频流节奏运行,而不会出现延迟堆积。
在此之上,系统引入了自规划调度能力,充当整个流程的“总指挥”。
它能够动态解析用户指令,并自主规划任务路径。在面对复杂任务时,系统会根据需要选择调用层级化记忆进行检索,或转而触发主动交互决策;
而在常规场景下,则保持直接、低延迟的流式多模态推理,使整体交互过程始终顺畅自然。
流式存储:StreamingMemory
StreamingMemory存储真正的多模态向量,通过层级记忆演化(HME)机制,以应对复杂的流视频理解任务。
![]()
具体来说,在记忆机制上,系统以视觉为核心,将多模态信息组织为可持续增长的增量式记忆节点,避免原始数据的简单堆叠。
这些记忆进一步从碎片演化为更高层级的“行动”和“事件”,使检索对象从画面本身转向可用于决策的结构化经验。
在此基础上,系统通过命令驱动的并行时间遍历实现高效检索,在长时序信息中快速定位关键内容,同时保证鲁棒性。
同时,统一的接口设计打通跨代理记忆,使不同Agent既能共享关键经验,又能进行差异化管理,从而支撑更高效的协同。
从代理:StreamingProactivity
StreamingProactivity面向未来事件预测、推理与主动交互设计,其目标既可以由用户预先设定,也可以在流式过程中持续演化。
当请求被识别为主动交互时,主代理会将其转化为持续在线的监控任务,例如追踪行为、判断事件或监控风险。
一旦满足触发条件,系统即刻生成通知或解释性响应,形成“感知—推理—触发—反馈”的闭环,避免反复查询。
![]()
这一机制主要覆盖两类场景,一类是时间感知交互,强调对状态随时间演化的持续跟踪;
另一类是事件定位交互,聚焦关键事件在时间流中的精确识别,常见于异常检测与自动标注等任务。
在实现上,系统分为免训练适配与训练适配两种路径。
![]()
免训练适配无需额外训练,通过将触发条件结构化为可监控节点,在流式过程中匹配视觉信号并即时生成响应;同时支持目标在线更新,形成持续演化的主动交互闭环。
训练适配则将状态变化建模为视觉语言信号,引入场景专用触发Token,使感知与任务解耦,并在单次推理中完成多事件识别与响应生成。
该方案在复杂场景下具备更高精度、更强泛化能力,同时显著降低并发任务下的推理开销。
整体来看,StreamingProactivity实现了全天候在线的主动交互,使系统能够持续感知变化并触发响应。
可扩展的工具与技能:闭环的最后一公里
为了真正让AI影响物理世界,StreamingClaw还提供了高效工具与技能接口,从而完成了“感知—决策—执行”闭环的最后一个环节。
除了标准的工具组合外,研究还引入了专为视频理解和流式交互定制的专业工具。
比如,Video Cut工具可以在关键片段中精准裁剪时间戳,将内容送入大型多模态模型进行“显微级分析”,再输出精简文本结果。
![]()
总体而言,StreamingClaw面向流式视频场景,基于多模态大模型实现感知、理解与语音输出,但当前仍以“视觉+文本”为核心输入范式,对音频输入、精细时序对齐及跨模态联合推理的支持仍有限。
未来,系统将演进为统一的全模态代理框架,打通视频、图像、音频与文本的输入输出,实现真正的感知-执行闭环;
同时强化长时程建模、空间理解与跨模态对齐能力,并持续优化低延迟部署与记忆、工具调用机制,以支撑更真实世界的具身交互。
[1]https://jackyu6.github.io/StreamingClaw-Page/
[2]https://arxiv.org/pdf/2603.22120





京公网安备 11011402013531号