衡宇 发自 凹非寺
量子位 | 公众号 QbitAI
现在,一部手机,加一个“夹爪”,就能随时随地完成具身智能数据采集了!

采出来的数据不脏也不废,已经在实际模型训练中跑出了效果。
模型在多步连续任务中动作衔接更稳定;
在真实场景中面对光照变化、环境杂乱、物体遮挡时也更不容易失手,执行鲁棒性显著提升;
而当任务发生小幅变化,比如同类但不同顺序的操作目标出现时,模型也更容易举一反三,做出合理应对。
这套采集系统,模型效果是纯纯地全肯定。

这套可搭载手机的数采终端及其配套应用程序,名叫RoboPocket,来自具身智能创企穹彻智能。
它是新兴采集设备UMI(Universal Manipulation Interface)的进阶状态。
和传统UMI方案相比,RoboPocket保持便携易用的基础上,更加轻盈:手机+夹爪即是一个节点。
如此一来,每个人——哪怕是普通人,都可以从口袋里掏出RoboPocket,随时随地采集具身数据。
但这还算不上它最出彩的地方。
最妙的是,RoboPocket把模型需求前置到采集一线,让你随时接入模型的训练闭环。
采集行为发生时,系统会同步判断每一段数据的训练价值,并即时给出反馈与引导,尽量让采集行为本身就朝着模型真正需要的方向收敛。
每一次采集都直接服务于模型进化,浪费不了一点。
![]()
在数据还在生成的过程中,就对其完成了价值筛选。
最终采来交付给模型的数据从采集源头就来得更加清晰,更加准确,对模型也更有用。
具身模型想scale up,卡在数据哪一步?
在具身智能领域,数据的重要性几乎是共识性的。
具身模型们嗷嗷待哺,等待大量高质量、多样性的具身数据的投喂。
从2023年起,许多团队投入大量资源建设数采厂,希望通过规模化生产来支撑模型训练。
实践很快暴露出一个现实问题,数采流水线建起来了,数据量上来了,模型能力却并没有稳定持续地提升。
原因并不神秘。
数采厂依赖的是预设场景和标准化流程,这种方式在工业数据中行之有效,但在具身智能里,很难覆盖真实世界中大量非标准、非重复的操作情境。
动作容易趋于模式化,任务分布集中,环境变化有限,数据之间高度相似,训练收益很快出现边际递减。
有相关从业人员告诉我们,现在的具身数据一天比一天多了,结果训练效率出现不升反降情况。
![]()
而具身模型真正需要的,恰恰是那些发生在真实环境中的、不那么规整的操作过程。
这也是UMI出现的背景。
UMI轻量便携,更易使用,一方面减少了数采成本,更重要的是开始让具身数据采集摆脱了固定场地的限制。
任何人,可以在室内和户外的任何真实世界场景里自然完成操作。
如此一来,采集的数据也是贴近现实分布的。这就弥补了数采厂和真实世界存在gap的问题。
但当UMI开始被业界认可和逐渐大规模使用后,新的问题也随之显现。
在真实场景中,采集更自由了,但质量控制随之变难了。
动作是否有效?轨迹是否合理?采集节奏是否适合训练?这些问题往往只有数据回传清洗,开始拿来训模型的后处理阶段才能发现。
大量低价值数据被一路送进管线,清洗与返工成本迅速抬升,训练周期被不断拉长。
所以关于UMI的“不可能三角”被抬到了台前——
采集质量、使用便捷性与后处理压力三者难以同时优化。
如果追求采集质量,就往往要牺牲便携性;如果降低门槛提高便携性,比如像传统UMI仅靠腕部模组或“人-夹爪”采集,就又很难保证数据的可用性;如果希望用后处理阶段兜底,就意味着要承受高昂的清洗、筛选与修复成本,训练闭环被迫拉长。
现有的UMI方案并没有解决“采得的数据能不能用”这个问题——这一点恰恰对模型训练至关重要。
于是,穹彻团队决定回到问题的原点,重新出发。
他们从第一性原理出发,提出一个关键设想。
如果模型训练最终还是要根据数据结构做判断与筛选,那么为什么这件事不能在数据采集阶段就发生?
这个问题其实是行业迟迟没直面解决的。因为一旦着手解决,就意味着采集逻辑、平台架构、成本结构、人才组织……都得变。
而RoboPocket第一次把它变成了现实。

内置一套实时运行的“数据价值中枢系统”
相比于过往的UMI设备,RoboPocket的关键改变集中体现在采集目标本身的定义上。
传统UMI的普遍默认采集目标是“记录人类操作行为”。
也就是通过腕部模组、夹爪、轨迹重建等方式,尽可能完整地还原人类执行任务的过程。
在训练初期,这确实能为模型提供基本行为模板。
但随着模型走向更高维度、更长时序、更复杂场景,记录动作本身已不足以满足训练所需。
RoboPocket开始尝试把采集的目标转向模型的能力缺口。
模型还不会的,才是最值得采的数据。
基于这个理念,RoboPocket系统内置了一套实时运行的“数据价值中枢系统”。
这套系统不再等数据采完后才去筛选、分类、评估,而是在采集发生的当下,就开始实时进行判断。
不难想象,一旦没有模型视角,采集很容易在堆量的过程中滑向重复、失真和低价值。
只有知道模型此刻真正需要什么样的数据,才有能力搭建好这个中枢系统。
穹彻和上交大卢策吾团队敢揽这个瓷器活,人家是真有公认的金刚钻。
团队长期从事具身模型训练与数据闭环研究,既懂单点采集工具(此前推出过多款具身数据采集硬件),也懂围绕具身模型训练、评估与数据回流的完整闭环研究。
他们最清楚哪些轨迹会变成有效训练信号,哪些看起来热闹但只会拖慢训练,也更清楚模型在不同任务维度上的短板通常出在哪里,应该用什么样的样本去补。
这种能力依赖的不只是工程实现,而是对模型的长期理解与持续验证,所以很难被复制。

采集数据的过程中,RoboPocket同时在推进并完成三件事——
第一是实时评估。
在每一帧数据生成时,系统都会判断采集到的数据是否具备有效的训练信号,比如操作是否完整、动作是否在预期轨迹内、场景是否具备信息量。
第二是即时引导。
如果系统检测到采集者的操作可能低效或错误,比如动作过快、夹爪超出操作区域、多样性不足等,就会实时发出提醒,引导采集者进行调整,避免采到低价值甚至废弃的数据。

第三是动态调度。
这一环节则直接接入当前模型的能力评估结果。
系统会根据模型在不同任务维度上的表现,识别出当前训练最需要补齐的样本类型,并实时分发相应的高优先级采集任务给采集者。
说句更好理解的话,RoboPocket就是个24小时stand by的数据采集主理人。
它即时诊断每一帧数据的质量,智能指导甚至纠正采集员动作,实时互动动态评估数据价值,为后处理提供筛选依据。
这样一来,在采集阶段,数据就和训练目标保持贴合,显著减少冗余,训练信号更加集中。
穹彻团队介绍,RoboPocket采集的数据在训练中展现出显著优势。
尤其是在开放复杂环境中的多步骤任务中,模型执行的稳定性更强,不容易因光照变化、背景变化或任务干扰而出错,准确识别每一步的上下文意图,在不确定情境下仍保持清晰的目标推进逻辑。
无论是精准完成零食分拣装袋,还是毛巾折叠整理,模型可以保持稳定、高效的协同作业,展现了卓越的双臂协同与长序列操作能力。

此外,在环境复杂度提升、干扰增多的场景下,也能维持较高的成功率和一致性。
这显现出一个重要趋势:
得益于采集过程更贴近真实任务,采集体系增强了训练匹配能力,模型开始从“能够粗糙地完成任务”向“能在非理想条件下可靠完成任务”演进。
而数据采集开始成为面向模型能力补齐的持续行为,这让数据采集开始具备闭环属性。
一旦采集与模型训练形成联动,整个数据系统的运行效率将得到显著提升。

从堆量走向边采边筛,数据采集的分水岭来了
如果放进更长的时间尺度来看,RoboPocket就不能视为一次孤立的产品更新。
机器人学习的发展,本质上是一部数据采集方式不断演进的历史。
最初,机器人只能在实验室中完成标准任务,数据由少数研究人员在封闭环境中录制。
随着具身智能的发展,数据开始走向规模化采集场,遥操作与人机协作带来大规模机器人数据。
2023年,穹彻智能联合上海交通大学卢策吾团队共同发布RH20T,机器人操作数据在中国首次实现系统性的规模化采集。但截至这一时期,机器人数据采集依然主要依赖预设场景。
2024年,斯坦福大学推出的UMI让采集设备更加轻量和简单,数据采集开始转向“自然发生”。
2025年,穹彻智能推出CoMiner伴随式数据采集系统,机器人开始走出采集场,进入真实世界,在开放环境中获取更加多样、复杂的操作数据。
梳理这个过程可以看到,具身数据一步步走出搭建的实验场景,愈来愈贴近现实。
2026年,RoboPocket的出现,将机器人数据采集,从特定场所与专业系统彻底释放到整个社会中。

手机成为节点,每个普通人可以参与采集。
无可否认,这是一次采集范式从“专业体系”走向“社会化网络”的转变。
当然啦,采什么、怎么采、优先级如何,这些都不是由人随意决定的。
这时候,前端连接真实世界的分散场景,后端连接任务库、模型训练与评估系统的RoboPocket,就起到了数据入口与调度中枢的双角色作用。
![]()
正因为有这套持续在线的判断与调度机制,数据采集才第一次具备了真正社会化的前提条件。
数采员可以是每一个普通人,但采集行为始终根据模型需求由数据中枢系统统一牵引调度。
长期来看,会推动具身数据从工具竞争迈向体系竞争。
谁的数据采集流程更早地接入模型反馈、谁的任务设计天然适配训练目标,谁就能更快积累泛化能力与落地鲁棒性。
行业普遍认为具身智能还在上半场,期待着这个领域和大模型一样,能够用暴力美学带来能力涌现。

所有人都在往具身模型里扔更多数据,但真正赢的人,一定率先解决了其它更深层次的问题。
既然如此,对想要持续scale up的具身智能行业来说,数据采集从源头就对齐目标就是一场迟早会发生的机制变动。
因为未来模型之间的差距,很可能就源于数据闭环的建设深度。





京公网安备 11011402013531号