高质量、规模化的真机实采数据,是驱动人形机器人算法迭代与商业落地的重要资源。
3月19日,新京报贝壳财经记者实地走访了北京人形机器人创新中心(以下简称“北京人形”)具身智能机器人数据采集与训练基地。记者了解到,该基地自建成投运不到半年,已成为国内场景覆盖最齐全、机器人构型最丰富、数据产能及质量最高的专业化具身智能数据采集平台之一。
此外,依托基地的规模化产能与标准化体系,北京人形不仅牵头制定了国内首个具身智能数据集行业标准《人工智能具身智能数据采集规范》,更已对外市场化交付超数万小时高质量真机实采数据,开源数据集累计下载次数超200万次,正向着“全球首个百万小时高质量具身智能数据”的目标推进。
北京人形标准化打造具身智能“数据工厂”
不同于仿真数据,真机采集的多模态数据能够精准还原力觉反馈、触觉信息、环境干扰等虚拟场景难以复刻的细节,完整复刻真实环境中的任务闭环,解决模型训练中的“分布偏移”难题,推动机器人智能从虚拟走向现实。
在北京人形近5000平方米的具身智能机器人数据采集与训练基地,新京报贝壳财经记者看到,该基地复刻了家居、商超、办公、工业、医药、康养六大领域,搭建了30多个典型应用场景,同时配套建设了约200平方米的专业光学动作捕捉场地,可通过高精度动捕技术实现拟人化动作的采集。
![]()
北京人形的工作人员正在遥操机器人拿取物体。新京报贝壳财经记者 韦博雅 摄
现场的工作人员告诉记者,基地内所有场景可以动态配置与重组,可根据需要对光照、物体摆放、人员动线进行调整,确保采集数据具备充分的泛化能力,覆盖算法训练所需的边缘案例与长尾场景。
硬件配置上,基地目前拥有各类机器人设备120余台,既包含北京人形自主研发的“天工”“天轶”系列机器人,也涵盖了Aloha、宇树、优必选、Franka、UR等国内外机器人或专业设备。同时,基地配备了头环式、夹爪式轻量化采集设备等采集装备,实现了真机遥操作、开放环境采集、动作捕捉采集三大核心采集能力。
“这种多品牌、多构型、多形态的编队模式,可以打破单一机器人采集的数据孤岛效应,产出覆盖不同运动控制逻辑、不同感知方式、不同交互模式的多源异构数据。”现场工作人员表示,基地还建立起标准化数据生产体系,覆盖数据采集、标注、质检全流程,保证从任务下发到最终交付的全流程质量可控。
![]()
北京人形的工作人员正在遥操机器人拿取物体。新京报贝壳财经记者 韦博雅 摄
破解数据采集痛点,北京人形前后端发力
在走访过程中,北京人形具身智能机器人数据与训练基地负责人蒋未来就行业关注的数据质量、标准统一、产业趋势与商业落地等核心问题,接受了新京报贝壳财经等媒体的采访。
数据质量是具身智能模型训练的生命线,也是当前行业普遍面临的核心挑战。蒋未来坦言,人形机器人数据采集与地图数据、大语言模型数据标注有着本质区别,涉及大量现场管理与全流程管控,影响数据质量的因素贯穿采集全链路。
如采集前的场景描述与任务设计是否合理,长时任务的变量设置是否充分;采集过程中的画面曝光、运动轨迹不流畅、环境反光等各类干扰;采集后标注平台的自动化能力、处理效率,都会直接影响最终的数据质量。
蒋未来透露,基地运营初期,数据验收合格率仅为50%,大量不合格数据造成了成本的浪费。为破解这一难题,基地从前期现场管理与后期后台处理两端发力,前期建立严格的工艺管理流程与专业的人员培训体系,从源头减少采集失误;后期依托自研的数据平台,实现单台设备采集质量的监控、数据标准归类与错误溯源,形成了采集-质检-反馈-优化的闭环管理。
经过四个月的持续打磨,基地内部质检合格率已提升至95%左右,超70%的产能用于服务行业研发型客户。
目前行业普遍存在的数据异构难题,不同厂商的机器人硬件与传感器布局、控制接口各不相同,形成了机器人“方言”壁垒,导致数据复用效率低、企业间数据难以流通。
“目前行业主要有两大解决思路,一是探索不与特定机器人绑定的采集方案,二是推进世界模型的技术路线,我们也在同步开展相关探索。”蒋未来坦言,当前真机实采数据已进入量产阶段,能够稳定支撑实际场景的模型训练,而数据异构的解决方案仍处于研发与落地尝试阶段,需要全行业的技术能力提升与资源投入。
谈及2026年的行业发展趋势,蒋未来表示,市场对具身智能数据的需求已出现爆发式增长,基本都达到十万甚至几十万小时的量级,较2025年需求规模增长至少10倍。而行业的核心趋势,将是新的采集方式的持续落地与优化,行业将在真机实采与仿真采集之间找到更优的平衡,同时数据采集的标准化、智能化程度将进一步提升。
新京报贝壳财经记者 韦博雅
编辑 杨娟娟
校对 赵琳





京公网安备 11011402013531号