当前位置: 首页 » 资讯 » 科技头条 » 正文

深度机智「情境数采」杀手锏,具身智能的通用性天花板要被捅破了?

IP属地 中国·北京 机器之心Pro 时间:2025-12-18 20:17:27



机器之心发布

具身智能通往通用性的征途,正被 “数据荒漠” 所阻隔。当模型在模拟器中刷出高分,却在现实复杂场景中频频 “炸机” 时,行业开始反思:我们喂给机器人的数据,是否真的包含人类操作的精髓?近日,深度机智在以人类第一视角为代表的真实情境数据,筑牢物理智能基座,解决具身智能通用性难题的道路上又有重要举措。

具身智能的 “数据之困”:从机械模仿到逻辑理解的鸿沟

具身智能的通用性突破,始终受限于物理世界交互数据的极度稀缺。尽管合成数据与离线遥操作提供了初步养料,但采集效率低、场景单一化、任务真实性弱等瓶颈,导致模型极易陷入过拟合的泥潭 —— 机器人往往只是学会了死记硬背特定的轨迹,而非习得举一反三的操作逻辑。

这一行业痛点,正被深度机智一直倡导的 “第一视角人类经验” 的情境数采(In-Context Data Collection)模式所破解。这种模式主张:数据不应是孤立的动作切片,而应是带有丰富环境语境与因果关系的逻辑流。

2025 年 12 月 17 日,一场关于数据范式的创新实践在北京落地:深度机智(DeepCybo)与北京高校正式宣布联合成立 “具身智能数据采集示范中心”。该中心旨在通过以人类第一视角(Egocentric View)为主、多视角辅助的真实情境多模态数据采集,为通用具身智能筑牢 “永不过时” 的数据根基。



情境数采:让数据带着 “场景记忆” 与 “迁移能力” 而来

这是本次合作最核心的技术增量。传统的数采往往关注 “动作轨迹”,而情境数采(In-Context Data Collection)则更强调动作发生时的 “前因后果”。

示范中心依托自研的DeepAct 数据引擎,在实验教学、工程实践等真实工业 / 生活场景中搭建了标准化采集体系。

多维感知融合: 以佩戴式第一视角设备为核心,协同环境中的多角度观测位,同步采集各类模态信息。场景记忆植入: 每一帧数据不再是冰冷的坐标变换,而是通过 “情境标签” 自带场景背景与交互逻辑。例如,在实验室抓取烧杯,数据会记录环境光影、桌面材质以及人类为了避开障碍物而刻意调整的路径细节。这种带有场景记忆的数据,能让模型理解动作背后的物理约束,实现真实物理世界的 World Context as Prompt。

从数据到智能:解锁机器人技能涌现的关键

这一数采范式的转变,背后隐藏着 “全面向人类看齐” 的技术逻辑:要让模型习得人类与物理世界交互的高效逻辑,核心在于高质量、多样化数据的规模化供给。

深度机智的内部实验结果表明:以大规模精细标注的第一视角人类经验数据来增强基座模型的物理智能,可以实现向机器人异构执行器的高效迁移。 这一结论,与 Physical Intelligence (Pi) 在 12 月 17 日同步公布的最新研究发现不谋而合,双方在不同地域、不同维度上共同验证了 “人类经验数据驱动通用智能” 的可行性。



作为北京中关村学院和中关村人工智能研究院(以下简称中关村两院)孵化的第一家高科技企业,深度机智自去年底筹办伊始,就在中关村两院支持下深入开展以人类第一视角数据为核心的物理智能增强研究,目前已经基本趟通人类数据驱动通用智能的技术全链路。此次共建的数采示范中心,正是这一逻辑的标准化实践模板。深度机智团队正通过其自研的 DeepAct 数据引擎,在全国十多个城市,数百个场景,大范围采集真实情境人类数据,持续扩大数据规模,为统一物理智能筑牢永不过时的数据基座。

结语

当带着场景记忆的第一视角多模态数据持续积累,当全链路处理和模型创新让数据价值最大化,具身智能的通用性突破将不再遥远。机器人终将从 “机械模仿” 的桎梏中解脱,在 “情境数采” 的赋能下实现真正的技能涌现,走向能够举一反三的通用物理智能新时代。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。