![]()
新智元报道
![]()
具身智能正在从实验室演示走向真实场景。越往真实世界走,数据问题越明显:视频能看到动作结果,动捕能记录轨迹,机器人日志能记录执行,但它们往往很难完整捕捉人类操作背后的意图、发力趋势、微控制和反馈修正。围绕这一缺口,一类新的人类操控数据基建正在出现。
过去几年,大模型证明了一件事:数据不仅是训练材料,也是能力边界本身。
文本模型吃下互联网文本和代码,获得语言、推理和编程能力;自动驾驶模型依赖真实道路数据,持续学习复杂交通环境;多模态模型则从图像、视频和语音里获得对世界表象的理解。
但当AI进入物理世界,问题变得更难。
具身智能要学习的不是一句话、一个图片标签或一段视频摘要,而是如何在真实世界中行动:如何抓起易碎物体,如何拧开瓶盖,如何插入接口,如何在接触后微调角度,如何在失败时重新选择动作。
这些能力背后,缺的不只是更大的模型和更贵的机器人本体,还有一种更底层的数据:人类如何操控物理世界的数据。
这也是为什么,Physical AI所需的数据规模,很可能最终远远超过大语言模型。
LLM训练所依赖的语言数据,本质上是高度压缩后的符号数据:一本书、一篇论文、一段代码,都是人类把经验整理成文字后的结果。它密度高、可复制、可检索,也相对「廉价」。
但身体经验不是这样。一个人一生读过的文字,按存储量粗略估算也许只是几十GB;而他从小到大接收的视觉输入、肌肉控制信号、触觉反馈和身体交互经验,可能是PB级甚至更高量级。人类通过身体学会抓握、平衡、接触、避让、用力和修正,这些数据大多没有被写进互联网,也没有被结构化记录下来。
所以,Physical AI的难点不是简单复制LLM的数据路线。语言模型吃的是人类已经压缩过的知识;具身模型要补的,是尚未被充分记录的人类身体交互数据。
政策和产业
把具身智能推向真实场景
工信部《人形机器人创新发展指导意见》已将人形机器人定位为未来产业方向,并提出建设大模型训练数据库、扩充高质量多模态数据。2026 年度人形机器人与具身智能实景实训专项行动则进一步强调「实景实训、数据沉淀、产品迭代、规模部署」的闭环,并要求建设高质量、高保真数据集。
这意味着,具身智能不再只是展台上的演示问题,而是要进入生产制造、仓储物流、医疗康养、应急救援等真实场景。
真实场景一旦打开,数据瓶颈就会变得很尖锐。
在实验室里,机器人可以在固定光照、固定物体、固定轨迹下完成任务;在现实里,物体会遮挡,材质会变化,人的动作会临时调整,接触状态也会不断改变。模型要从模仿动作走向理解操作,必须拥有更接近真实操控过程的数据。
所以,具身智能的竞争正在从三个层面展开:
机器人本体,解决能不能执行;
模型算法,解决能不能规划和泛化;
数据基础设施,解决能不能持续获得可训练、可复用、可治理的真实操作数据。
第三层,正在成为新的关键变量。
换句话说,Physical AI 的终局竞争不会只发生在机器人本体上,而会越来越多地发生在数据源头上。未来具身模型需要的数据量可能远超大语言模型,而高质量的人类操作数据,正在成为全球最稀缺的战略资源之一。
从结果数据走向人类操控数据
今天的具身数据采集方法大致有几类。
第一类是视频和第一视角数据。它们可以记录环境、物体和人的动作过程,成本相对低,也容易规模化。但视频主要看到的是外部结果。手被物体遮住、动作发生在边缘视角、手指产生细小变化时,关键操控信息可能丢失。
第二类是动捕、数据手套、外骨骼和专业遥操作系统。它们可以获得更精确的姿态、轨迹或控制量,但通常穿戴复杂、部署成本高,对自然操作有干扰,也不容易进入大规模日常任务。
第三类是机器人真机日志。它记录的是机器人执行了什么、关节如何变化、任务是否完成。但它往往回答不了更前置的问题:在人类示教或操作时,人的意图如何形成,什么时候准备发力,接触后又如何微调?
换句话说,很多现有数据记录的是动作结果,而不是操控过程。
一次真实的人类操作,其实包含多个层次:
意图:人准备做什么;
姿态:手和身体如何运动;
发力趋势:肌肉激活和接触状态如何变化;
微控制:接触后怎样修正、补力、调整方向;
结果:任务是否完成,物体和环境发生了什么变化。
如果只记录最后的轨迹或视频,很多关键过程会被压缩掉。对精细操作来说,这些被压缩掉的信息,可能正是模型最需要学习的东西。
![]()
EMG补上Manipulation Intelligence拼图
EMG,也就是肌电信号,是肌肉活动相关的电信号。腕部或前臂的表面肌电可以在非侵入条件下捕捉部分运动意图、肌肉激活和控制变化。
2025 年 Nature 论文《A generic non-invasive neuromotor interface for human-computer interaction》展示了腕部 sEMG 用于连续控制、离散输入和文本输入的潜力,并讨论了 sEMG 对意向运动信号和手势力相关信息的捕捉价值。
![]()
论文链接:https://www.nature.com/articles/s41586-025-09255-w
EMG 不等同于触觉传感器或真实力传感器。它更适合被理解为一种人端估计信号:它不能直接告诉我们物体受到了多少牛顿的力,但可以为人准备怎样发力、肌肉激活如何变化、动作是否发生微调提供线索。这恰恰是它的价值所在。
在具身智能数据中,视觉、动捕、机器人日志和触觉传感器各自回答不同问题:
视觉回答:看到了什么;
动捕回答:动作在哪里发生;
机器人日志回答:机器执行了什么;
触觉/力传感器回答:接触和真实受力如何变化;
EMG 补充:人端意图和发力趋势如何形成。
当这些信号被放到同一条时间轴上,数据就不再只是分散的传感器记录,而更接近一次真实操作的完整过程。
![]()
神经腕带+全景头环
一种轻量化采集入口
从人形机器人的全身操作系统,到软件仿生灵巧手,再到机器人摄像头防抖、室内空间数据采集和物理因果数据引擎,不同团队几乎都在试图为Physical AI补上一块关键拼图。
而在这些路径之外,北京大学秦旭团队,则把视线进一步拉回到「人类如何操控世界」本身,提出面向Physical AI的人类操控数据平台。
其路径是以极具创新性的可穿戴硬件组合作为入口,从肌电与运动神经信号解码切入,通过神经腕带、全景头环等设备,持续采集真实世界中的人类操控过程,并将其沉淀为意图、姿态、发力趋势、微控制与反馈修正等结构化数据。
![]()
这套方案的关键,是把人类自然操作变成可采集、可同步、可训练的数据流。其中,神经腕带负责捕捉前臂相关的运动神经/肌电信号;全景头环记录第一视角下的环境、对象和任务上下文;如果再结合手部姿态、腕部视觉、IMU、机器人日志或接触传感器,就可以形成更完整的多模态操控数据。
举个简单例子:
一个人拿起杯子。视频能看到手靠近杯子、杯子被拿起;姿态数据能看到手腕和手指的位置变化;如果有触觉或力传感器,可以看到接触与受力;EMG 则可以补充动作发生前后的肌肉激活和发力趋势线索。
真正有价值的不是某一个信号,而是这些信号的同步。
对机器人来说,同步后的数据能帮助模型理解:在什么视觉环境下,人为什么这样伸手,如何预备发力,接触后如何修正,最后任务为什么成功或失败。
这就是人类操控数据平台的意义。它不是一个硬件外设,也不是一个单一数据集,而是面向 Physical AI 的数据采集和结构化能力。
神经腕带 + 全景头环的应用
第一类应用,是机器人训练和示教。
精细操作任务中,单纯的视频模仿常常不够。插拔、拧动、按压、抓取柔软物体、使用工具等任务,都涉及接触状态、发力变化和连续修正。人端操控数据可以为模型提供更丰富的监督信号。
第二类应用,是 AI 眼镜、XR 和智能设备交互。
语音不适合所有场景,触屏和手柄也不能覆盖所有操作需求。神经腕带作为低摩擦、低打扰的输入方式,可以让设备理解手势、意图和微控制,成为空间计算和智能终端的新交互入口。
第三类应用,是真实场景数据集建设。
实景实训强调从真实场景中积累高质量数据。人端操控数据可以补足传统视频和机器人日志之外的信号层,让数据集从「看见动作」升级到「理解操作」。
第四类应用,是数据产品和基础设施。
如果一套采集方案能持续沉淀跨任务、跨场景、跨用户的数据,它就不只是设备销售,而可能变成面向机器人公司、模型团队、AI 眼镜厂商和工业场景的数据模块。这也是雪梦未来试图强调的方向:短期是人机交互和具身数采,长期是 Human Manipulation Data Layer。
从看见动作
到理解操控
具身智能的下一阶段,不会只由更大模型或更强本体决定。
模型需要真实世界的数据,本体需要真实场景的验证,而真实场景又需要可持续、可治理、可复用的数据采集基础设施。
视频、动捕、遥操作、机器人日志都不会被替代。它们仍然是重要数据来源。但如果 AI 要更深入地理解人类如何操作物理世界,就需要补上动作结果背后的信号:意图、发力趋势、微控制和反馈修正。
EMG + Ego 视觉 + 姿态同步,是一种早期但值得关注的路径。
它让人不只是机器人要服务的对象,也成为 Physical AI 学习物理操作的重要数据源。从这个意义上说,具身智能真正的底座,可能不只是机器人本体,也不只是模型参数,而是高质量、可规模化的人类操控数据。
![]()
短期看,人类操控数据可为具身智能、AI眼镜和智能设备提供更自然的人机交互入口,降低操作门槛,提升连续性与低打扰体验;长期看,它指向一层新的物理世界数据基础设施,让AI不只理解文本和图像,也理解人类如何真实地与世界交互。
![]()
Physical AI的下一步,或许不只是把动作做得更像人,而是开始真正理解动作背后的操控逻辑与人类意图。那些决定成败的关键,很多时候并不写在最终结果里,而藏在动作发生前的判断、接触瞬间的微调,以及一次次反馈中的修正之中。
只有当AI学会的不再只是动作的外形,而是人如何发起、控制并完成一次真实操作,它才有可能从演示走向现实,真正进入那个复杂、开放、始终变化着的物理世界。
参考资料:
编辑:LRST





京公网安备 11011402013531号