具身龙虾，上车理想

IP属地中国·北京 量子位 时间：2026-04-06 00:49:44

henry 发自凹非寺
量子位 | 公众号 QbitAI
别人家的“龙虾”还在盯着屏幕玩电脑，理想已经把“龙虾”带上车了！
最近，理想发布了全新的流式视频理解与具身智能统一的Agent框架——
StreamingClaw。

在保持与OpenClaw框架完全兼容的基础上，StreamingClaw原生支持实时的多模态流式交互。
这意味着，系统在面对视觉输入时，不再将其视为死板的离线视频文件，而是像人类感知世界一样，实时捕获流数据（Stream）并进行即时推理。
比如，这只虾不仅能在驾驶中盯着你，检测可疑动作（哈欠、玩手机）并主动预警。
还能在你取车的时候，主动跟你打招呼。
与此同时，StreamingClaw还引入了自主多代理调度机制。
依托主-从代理的紧密协同，它不仅能自主完成复杂的任务规划与逻辑决策，更深度集成了丰富的工具及技能库，在现实场景中实现了指令驱动的具身智能。
在StreamingClaw的加持下，机器人与终端设备实现了极低延迟的“边看、边记、边行动”：
比如，它可以实时上识别你手持的物品，帮你解题。
不难看出，在这些复杂场景中，StreamingClaw的核心硬实力在于实时推理与瞬时响应。
而支撑这只“理想龙虾”在物理世界灵活行动的，正是一整套围绕“流式架构”展开的系统设计。
从“离线处理”到“主动闭环”
不同于大模型等对延迟（相对）不敏感的场景，在具身智能、AI硬件及智能座舱等领域，系统往往需要在毫秒级完成感知—决策—执行的闭环：
感知（看）：通过摄像头捕获环境；决策（想）：AI大脑规划对策；执行（做）：驱动硬件或指令，并根据动作后的新环境再次循环。
然而，现有的视频Agent在处理实时感知（流式感知）时往往面临着延迟较高的问题。
之所以这样是因为，传统方法通常将视频视为完整文件处理。长视频的计算量呈指数级爆炸，难以实时响应；
同时，模型难以持续追踪长时程信息，导致决策草率、频繁遗忘，甚至直接任务失败。
针对这些问题，以往的研究尝试通过视觉压缩或Token精简来缓解负载，但同时也导致了细节丢失，无法准确定位等问题。
更致命的是，传统模型大多是被动触发：你不问，它不动，缺乏对环境风险的主动感知。
StreamingClaw通过“增量计算”改写了这一逻辑。
它不再机械地重复处理历史画面，而是将环境的细微变化视为增量信号进行推理更新。
这意味着，它不仅能“看”得更准、记”得更久，还能在思考过程中自主调用工具，实现从感知到物理干预的真正闭环。
这就是所谓的流式推理，与处理现成文件的“离线模式”不同，其要求AI必须像观看直播一样，在数据不断涌入的同时即时分析，不允许任何严重滞后。
接下来，我们具体来看StreamingClaw是怎么做到的。
具身智能的流式交互引擎
总体来看，StreamingClaw是一个高度协同的多代理（Multi-agent）架构。它通过一套标准化的流水线，打破了不同硬件之间的壁垒：

首先，无论是智能眼镜、自动驾驶芯片还是具身机器人，所有多模态流式输入都会通过时间戳对齐与共享流式缓存*进行标准化处理，确保AI拥有统一的“时间尺度”。
其次，核心大脑StreamingReasoning（主代理）负责实时感知与规划；StreamingMemory与StreamingProactivity（从代理）则分别提供长效记忆支撑与主动交互决策。
最后，代理生成的决策指令会直接驱动工具箱与技能库。
从简单的视频剪切到复杂的具身动作序列，执行结果会即时反馈至代理，形成一套完整的“感知—决策—执行”闭环。
这种架构让StreamingClaw不仅能听懂指令，更能通过自主规划与工具调用，真正深入现实场景解决问题。
流式推理：：StreamingReasoning
流式推理（StreamingReasoning）主要针对具有连续输入输出的流视频理解场景。
其核心目标是在极低延迟的约束下，实现对现实世界的实时感知、理解与推理。

在实时流式推理方面，系统会将输入的视频流拆分为细粒度片段，并通过动态滑动窗口严格控制上下文范围，从源头上避免无效信息的堆积。
在此基础上，结合经过剪枝优化的流式KV-Cache机制，StreamingReasoning可以持续进行高效的增量解码，使整体推理过程始终紧贴视频流节奏运行，而不会出现延迟堆积。
在此之上，系统引入了自规划调度能力，充当整个流程的“总指挥”。
它能够动态解析用户指令，并自主规划任务路径。在面对复杂任务时，系统会根据需要选择调用层级化记忆进行检索，或转而触发主动交互决策；
而在常规场景下，则保持直接、低延迟的流式多模态推理，使整体交互过程始终顺畅自然。
流式存储：StreamingMemory
StreamingMemory存储真正的多模态向量，通过层级记忆演化（HME）机制，以应对复杂的流视频理解任务。

具体来说，在记忆机制上，系统以视觉为核心，将多模态信息组织为可持续增长的增量式记忆节点，避免原始数据的简单堆叠。
这些记忆进一步从碎片演化为更高层级的“行动”和“事件”，使检索对象从画面本身转向可用于决策的结构化经验。
在此基础上，系统通过命令驱动的并行时间遍历实现高效检索，在长时序信息中快速定位关键内容，同时保证鲁棒性。
同时，统一的接口设计打通跨代理记忆，使不同Agent既能共享关键经验，又能进行差异化管理，从而支撑更高效的协同。
从代理：StreamingProactivity
StreamingProactivity面向未来事件预测、推理与主动交互设计，其目标既可以由用户预先设定，也可以在流式过程中持续演化。
当请求被识别为主动交互时，主代理会将其转化为持续在线的监控任务，例如追踪行为、判断事件或监控风险。
一旦满足触发条件，系统即刻生成通知或解释性响应，形成“感知—推理—触发—反馈”的闭环，避免反复查询。

这一机制主要覆盖两类场景，一类是时间感知交互，强调对状态随时间演化的持续跟踪；
另一类是事件定位交互，聚焦关键事件在时间流中的精确识别，常见于异常检测与自动标注等任务。
在实现上，系统分为免训练适配与训练适配两种路径。

免训练适配无需额外训练，通过将触发条件结构化为可监控节点，在流式过程中匹配视觉信号并即时生成响应；同时支持目标在线更新，形成持续演化的主动交互闭环。
训练适配则将状态变化建模为视觉语言信号，引入场景专用触发Token，使感知与任务解耦，并在单次推理中完成多事件识别与响应生成。
该方案在复杂场景下具备更高精度、更强泛化能力，同时显著降低并发任务下的推理开销。
整体来看，StreamingProactivity实现了全天候在线的主动交互，使系统能够持续感知变化并触发响应。
可扩展的工具与技能：闭环的最后一公里
为了真正让AI影响物理世界，StreamingClaw还提供了高效工具与技能接口，从而完成了“感知—决策—执行”闭环的最后一个环节。
除了标准的工具组合外，研究还引入了专为视频理解和流式交互定制的专业工具。
比如，Video Cut工具可以在关键片段中精准裁剪时间戳，将内容送入大型多模态模型进行“显微级分析”，再输出精简文本结果。

总体而言，StreamingClaw面向流式视频场景，基于多模态大模型实现感知、理解与语音输出，但当前仍以“视觉+文本”为核心输入范式，对音频输入、精细时序对齐及跨模态联合推理的支持仍有限。
未来，系统将演进为统一的全模态代理框架，打通视频、图像、音频与文本的输入输出，实现真正的感知-执行闭环；
同时强化长时程建模、空间理解与跨模态对齐能力，并持续优化低延迟部署与记忆、工具调用机制，以支撑更真实世界的具身交互。
[1]https://jackyu6.github.io/StreamingClaw-Page/
[2]https://arxiv.org/pdf/2603.22120

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

玉米的“高蛋白秘籍”，上海科学家找到了！两位“老祖宗”基因联手，营养翻倍

能以极低内存、更快速度处理数据，量子计算有望突破算力瓶颈

“现在几点？”当你这么问，就在创造时间！科学最大谜团正在被破解

微软前沿科技上新：全系7款自研模型，还有二代量子芯片

让构网无处不在，让AI无所不及 | 华为举办智能光伏战略&新品发布会

蒸馏了20多年的公开言论，我们终于可以跟马斯克同频思考了

全站最新

玉米的“高蛋白秘籍”，上海科学家找到了！两位“老祖宗”基因联手，营养翻倍

能以极低内存、更快速度处理数据，量子计算有望突破算力瓶颈

“现在几点？”当你这么问，就在创造时间！科学最大谜团正在被破解

微软前沿科技上新：全系7款自研模型，还有二代量子芯片

热门推荐

玉米的“高蛋白秘籍”，上海科学家找到了！两位“老祖宗”基因联手，营养翻倍

能以极低内存、更快速度处理数据，量子计算有望突破算力瓶颈

“现在几点？”当你这么问，就在创造时间！科学最大谜团正在被破解

微软前沿科技上新：全系7款自研模型，还有二代量子芯片

让构网无处不在，让AI无所不及 | 华为举办智能光伏战略&新品发布会

蒸馏了20多年的公开言论，我们终于可以跟马斯克同频思考了

市场监管总局网络餐饮专项抽检结果公布：覆盖美团、淘宝、京东等14个平台，不合格率2.3%

谷歌推出AI个性化故事应用Dreambeans，仅向Ultra订阅用户开放

搞心态的“AI押题”不要也罢

巴菲特为什么重仓谷歌，而非英伟达？

桥水达利欧：随着财富转化为现金，AI泡沫终将破裂

微信AI要来了？“这一动作，或助推腾讯AI翻盘”

马斯克旗下xAI招聘中文AI导师，时薪超300元还可远程兼职

谷歌推出电诈克星：精准拦截AI伪造语音来电

大模型公司“回A”的深层考量

首页

资讯

财经号

智能车

专题

电商资讯

人物资讯

滚动资讯

首页

新科技

新金融

新零售

智能车

房地产

科技探索

人物资讯

网络游戏

人工智能

具身龙虾，上车理想

从“离线处理”到“主动闭环”

具身智能的流式交互引擎

可扩展的工具与技能：闭环的最后一公里