![]()
![]()
“基座模型、数据飞轮与末端执行缺一不可。”
作者丨高景辉
编辑丨马晓宁
2026 年 6 月的维也纳,ICRA 展厅里挤满了来自全球的机器人公司,三年前还在 PPT 上展示概念的具身智能,如今已经变成了满地跑的人形机器人。
但热闹之下,焦虑正在蔓延。当下的机器人虽然能跑能跳,但依然难以进入真实场景创造价值,形成技术和商业的闭环,其所需要的模型、硬件和数据能力,似乎也只有为数不多的企业具备。以至于业内的感受是,当下大多数的具身智能,都还停留在“1.0时代”。
那么,具身智能要如何进入“2.0时代”,实现阶段性的突破呢?
带着这个问题,雷峰网来到了 ICRA 2026 的现场,试图从全球具身智能领域的顶尖学术成果和头部企业中找到答案。
在这样的背景下,它石智航提供了一个值得观察的样本。作为两个月前刚完成中国具身智能最大单笔融资的明星企业,相比单独展示某个demo,它石智航选择对世界强调一套完整链路:从真实人类数据的采集,到模型侧成果AWE 3.0,再到此次正式首秀的灵巧手,与机器人本体复杂操作的执行。
这也让问题进一步聚焦:人形机器人要真正创造价值,比的已不是单一的“长板”,而是面面俱到的全栈能力?
为了回答这个问题,雷峰网在 ICRA 2026 现场与它石智航首席科学家丁文超博士进行了一次深度交流,试图从最顶级的这批从业者口中,找到具身智能通往2.0时代的钥匙。
![]()
01
具身智能进入2.0时代,离不开工程化能力
雷峰网:它石这次在 ICRA 上会带来模型、灵巧手及相关数采方案,为何选择这个时间点进行系列成果发布?
丁文超:主要有两方面原因。第一是行业规律,物理 AI 行业中往往会在关键技术积累到一定阶段后,迎来一波技术爆发,它石智航从成立到此次 ICRA,也基本走到了这样一个阶段,今年年中除 ICRA 外,我们还有其他成体系的对外展示规划,技术状态也已到位。
第二是 ICRA 是全球综合规模、含金量和技术扎实程度都属旗舰级的会议,受众覆盖大众,业界和学术界专家学者参与度高,国内赞助商均为头部企业,是很好的国际化展示窗口。当然不止是ICRA,后续几个节点我们也有相关发布规划。
雷峰网:现在有人将具身智能分为 1.0、2.0 时代,您认为出现这种区分的原因是什么?两个时代的本质区别在哪里?
丁文超:核心是技术范式的改变。具身智能大致分为几个阶段:首先是萌芽期,2023 年初到 2024 年,行业对具身智能的落地场景和实现方法尚不明确,企业主要做两件事,一是造本体,当时涌现出了大量本体公司;二是智能层面方法论不明晰,出现了 ACT、DP 等小模型。
接着是具身智能 1.0 时代,以 2024 年为代表,VLA 范式进入具身及自动驾驶等领域,该范式以遥操作为核心数据采集方法,以大模型为骨干网络加动作的“头”,实现一定泛化能力。这一时代催生了首批“大脑”企业,大家同质化地建设数据采集工厂、售卖机器人本体作为数采设备、训练 VLA 模型。但 1.0 时代存在明显问题:一是遥操作依赖限定场景的数据获取,无法深入千行百业;二是简单拼接 VLM 的模型架构并非根本解法,VLM 的泛化能力并未真正迁移到机器人上,行业对此较为失望。
2025-2026 年进入具身智能 2.0 时代,包括它石在内的公司开始探索更加 scalable 的数据采集方式和更通用的模型范式。2.0 时代有两大核心特征:一是以 Human-centric/Ego-centric 为核心的数据范式爆发,2026 年被称为无本体数据采集元年;二是以 World Action Model 世界动作模型为核心的模型范式爆发,其泛化性和可扩展性较上一代有明显提升。
未来具身还会迎来 3.0 时代,当前 2.0 时代主要在吸收预训练红利,3.0 时代将引入以世界模型为驱动的后训练能力,让具身智能同时具备泛化能力和场景生产力。每个时代都会催生新的技术范式和对应团队。
雷峰网:部分企业仍停留在 1.0 时代,他们卡在哪一步?是数据问题吗?
丁文超:短期来说是范式转变的难度。有一个反常识的点,尽管 Human-centric/Ego-centric 理念看似深入人心,但不少人仍对此持质疑和观望态度。这种状态在自动驾驶端到端技术推广早期也出现过,当时很多人质疑其安全性、可解释性,可能只有被市场倒逼时才会转向。
雷峰网:它石为何能快速进入 2.0 时代?
丁文超:核心有两点。第一是坚持第一性原理思考,这听上去很简单,但其实蛮难的。在 2024 年底 VLA 和遥操作火热时,我们就开始思考如何进一步 scale up,不受外部主流技术路线影响。
第二是极强的工程化能力,目前很多企业开始做 Human-centric/Ego-centric,但还未进入深水区,而我们 2025 年就已投入大量精力迭代数采设备,从零到一设计制造了一套可穿戴数采设备SenseHub,打通了适用于无本体数据的模型训练和部署范式,并在本体上优化到极致。这两点是我们能提前布局并取得成果的关键。
雷峰网:今年被很多人称为具身智能商业化元年,2.0 时代也很看重商业闭环能力,你们在商业化和真实场景应用方面有哪些进展?
丁文超:具身公司容易陷入两个极端,一是布局过多场景,分散注意力,拖慢基础模型迭代速度;二是不落地,只专注刷模型,这两种都无法形成良性循环。
其实参考大模型的商业化经验,大模型理论上可覆盖千行百业,其中 ROI 最高的是 Vibe coding,而这项能力还能反向解锁更多场景。具身智能目前也处于类似状态,在通用模型爆发前夜,既需要保持通用模型的持续竞争力,也要聚焦核心落地场景。
我们目前聚焦线束柔性装配场景,这个场景需要将柔性线束以毫米级精度插入孔位,完成长程连续的布线、插接及缠胶等工序,相当于制造汽车的“血管”。我们现在的商业化的进展还不错。
而之所以选择该场景主要有三点考量:一是单场景用工需求量大,避免了部分场景需求分散、设备用量少的问题;二是属于柔性制造且是长程任务,技术门槛高,同质化竞争少;三是能反向推动基础模型迭代。
雷峰网:上次在 AWE 上看到了你们的线束演示,和这次 ICRA 现场展示的有何不同?
丁文超:这次现场除了会展示线束子任务,还会展示多个其他任务,体现模型的泛化能力。和上次 AWE 展示不同,本次会展示线束长程任务,让模型端到端连续完成多根线的抓取、插接操作,过程中可自主纠错、自主适应,每根线的插入精度达到亚毫米级。
![]()
02
如果具身智能存在 scaling law,
一定是由原生基座模型涌现出来的
雷峰网:什么样的模型是好的模型?
丁文超:好的模型核心特点是要足够简单,只有简单的架构才容易规模化。好模型的架构清晰直接,但能消化各类数据。数据处理和模型部署的工程化可以复杂,但模型结构本身要简单直接。
对具身模型来说,这个领域其实没有新鲜事。VLA 模型的本质是大语言的 scaling law 被验证后,行业将 VLM 的泛化能力迁移到具身领域的尝试,但其核心问题是真正可规模化的部分与实际场景脱节。VLA 的训练数据分为两类,一类是易规模化的传统大模型数据,另一类是极少的机器人执行任务数据,两者严重不对等。所谓 VLA 的泛化能力其实是 VLM 的能力,并未真正迁移到机器人上,在全新场景中,VLA 仍需通过遥操作采集动作数据微调动作头部才能运行。
当前世界模型成为热点,核心是将视频预测模型应用于具身智能,视频预测模型本身具备 scaling law,相比 VLA 有两大优势:一是统一了跨本体问题,不挑视角,能吸收来自人或机器人的各类视频和动作数据,缩小了人与机器人任务数据的差距;二是放松了对现场遥操作数据的依赖。但世界模型仍是将视频模型能力迁移到具身领域,并非最优解。
目前行业头部公司都在追求训练具身原生基座模型,即从数据采集到模型训练、预测、推理全流程贯穿语言、视觉、动作三种模态,吸收千行百业的数据。如果具身智能存在 scaling law,一定是由原生基座模型涌现出来的。
我们的 AWE 模型全称是 AI World Engine,本质是以 AI 为驱动的世界引擎。仿真器难以规模化,而用数据学习的世界模型能同时告知未来的动作和动作的后果,具备极强的可扩展性,其终局是成为具身原生基座模型。
雷峰网:你们的模型相比其他世界模型和之前的 VLA,在实际执行任务时有什么优势?线束任务的出色效果是如何实现的?
丁文超:核心优势体现在数据和训练范式两个点上。第一,我们的无本体采集数据质量远超行业平均水平。很多企业低估了数据部署到机器人上的难度和精度要求,人作为灵活的本体,需要轻量且高精度的采集设备,我们自研的数采设备能获取高质量的人的末端动作数据,在数据多样性和动作精度上优势明显。
第二,我们采用了独特的技能转换训练范式。预训练阶段吸收大量人类数据后,在特定场景的后训练阶段,我们摒弃了遥操作采集数据的方式,因为遥操作容易引入抖动等噪声数据,纯人类数据训练反而更干净简洁。
模型精度的提升需要全流程打磨,从数据采集、动作标签增值、模型训练到部署,每个环节都存在技术难点。
雷峰网:这次 ICRA 现场它石展示了亚毫米级线束操作和打包任务,这两个任务分别有哪些技术难点?
丁文超:两个任务的难点差异明显。线束任务的核心难点是动作精细度要求极高,需要在操作柔性物体的同时达到亚毫米级精度。该任务对数据的稳定性要求极高,因为模型是端到端的,数据中的瑕疵会直接映射为模型的瑕疵。
打包等其他泛化任务的精度要求为毫米级或亚厘米级,核心难点是应对动态变化的任务场景,考验模型的自主纠错和自主恢复能力。这种能力只有在训练数据和任务的多样性、量级达到一定程度时才会涌现,我们本次展示的不同任务正是针对性体现模型不同层面的能力,现场还会设置互动任务,模型可克服人为扰动完成操作。
![]()
雷峰网:行业普遍担心世界模型的幻觉问题会导致严重后果,你们是如何解决这个问题的?
丁文超:如果直接将 video prediction(视频预测)引入世界模型,最常见的幻觉问题是穿模,比如模型视野中被抓取的物体突然消失,导致动作策略异常。
我们解决该问题的核心是对 3D 隐空间进行建模。现有世界模型普遍缺乏长时记忆,只有短时的像素到像素预测能力,而对空间的理解需要沉淀下来的长时信息。我们的模型在预训练阶段针对性强化了空间感知建模,在模型工作空间内基本能实现极强的一致性,这是 AWE 模型的特色之一。
雷峰网:在真实环境中,有哪些机制能保障模型工作的安全性和可靠性?
丁文超:主要有二层保障机制。第一,训练模型自主从错误中恢复的能力,训练阶段会特意加入相关数据进行针对性训练。第二,搭建完整的数据闭环体系,这也是从自动驾驶领域借鉴的经验。模型始终会犯错,关键是能回收失败案例的数据,通过快速的数据闭环挖掘正确数据和故障恢复数据,持续迭代模型。目前具身行业的数据闭环完备程度普遍低于端到端自动驾驶,我们正在加速搭建这套体系,实现模型安全性和可靠性的渐进式提升。
03
数据并非越多越好,重点是高质量数据
雷峰网:你们很早就提出了以人为中心的数据范式,为何从一开始就押注这条路线?对于遥操作、仿真合成、UMI 等其他数据采集方式您又是如何看待的?
丁文超:因为在我们的判断中,其他方式都无法支撑通用具身基础模型的规模化发展。
遥操作仅适合后训练,不适合预训练和规模化,无法走向通用具身基础模型。
仿真数据仅在局部简单任务中有价值,比如局部运动仿真,能模拟全身运动和环境的简单接触交互,但无法模拟真实世界的复杂交互,不具备可扩展性。
UMI 更多是科研态的方案,能通过单末端完成部分任务,为规模化提供科研牵引,但并非完整的系统,无法真正实现规模化。
我们自研的数采套件综合考虑了以上所有因素,具备三大特点:一是兼容多种采集模式,支持纯头带、头带加手套、头带加夹爪等组合;二是所有传感器均实现高精度时空同步,满足部署态要求;三是动作精度高,配套自动化数据管线可恢复动作和场景语义,且设备便携,能以人为中心获取各行各业的数据。
![]()
雷峰网:行业存在仿真和真机数据配比的争论,你们是否有明确的配比?
丁文超:目前行业基本共识是用 Human-centric 数据做预训练,但用仿真做后训练并非好选择,因为仿真器存在太多人工痕迹,适合做评测,无法支撑模型的持续自我提升。
数据配比需根据任务精度要求调整:对于线束这类精度要求极高的任务,基本采用全人类数据,因为只有人能达到对应的精度;对于亚厘米级精度的任务,可加入部分机器人数据。理想状态下,通用模型用 50 万小时人类数据做预训练,单个任务仅需 1 小时左右的单任务数据即可完成适配。
雷峰网:你们目前的数据积累进度如何?数据量增加是否会让模型能力提升更快?
丁文超:我们仍在朝着百万小时有效数据的目标推进。排除高度重复的无效数据后,我们每日获取的丰富多样的有效数据规模处于行业 top1。
随着数据量增加,模型能力提升速度的确会明显加快,这也是我们计划在 2026 年中进行系列发布的原因,预计 2026-2027 年具身智能在操作侧会取得巨大进步。
雷峰网:以后会不会发现实际需要的数据并没有那么多?
丁文超:数据并非越多越好。低质量的纯 ego 数据会越来越便宜、越来越平权,只能作为打底数据让模型具备基本认知,类似大模型的通用语料。互联网上的海量视频数据并未催生出通用具身智能,也证明了纯低质量数据的局限性。
而高质量的场景化数据价值会持续凸显,这和大模型的发展趋势一致,未来数据的竞争核心是高质量数据而非数据总量。
雷峰网:数据跨境和隐私安全是第三方数采公司关心的重点,您认为未来国内外数据是否会互通?
丁文超:未来国内外数据不互通的可能性较大,数据的流通性和场景高度相关。如果企业有海外业务,需要在当地合规、合法、符合隐私政策地获取数据。
04
好的灵巧手要“手脑一体”,
满足模型的部署需求
雷峰网:数据与硬件存在绑定关系,这是咱们自研硬件的原因之一吗?这次 ICRA 亮相的灵巧手有何特点?
丁文超:是的,很多公司低估了外采数据的难度,传感器配置的差异会大幅降低外采数据对模型的收益。同时,硬件是产品交付的核心,仅提供大脑方案无法形成完整产品。
灵巧手从技术路线上分为低自由度(11 自由度及以下)和高自由度(典型为 21 自由度)两类,低自由度多采用连杆式,高自由度以直驱 / 准直驱为主。高自由度技术可向下兼容低自由度,反之则不行。
高自由度灵巧手又分为绳驱和准直驱两条路线,优势是出力大,但一致性差,需动态调节且依赖新材料突破;我们采用准直驱方案,核心挑战是精密制造,需要在极小体积内集成 21 个自由度,同时平衡减速比、灵活性和负重,是硬件、软件、算法的全栈挑战。
目前能做到 20 自由度以上准直驱灵巧手的公司极少,同时具备高自由度灵巧手和对应模型的公司更是屈指可数。
雷峰网:在你看来,一个好的灵巧手最需要什么特质?
丁文超:能满足模型部署的需求。比如在实际部署时会有很多执行的 gap,所以我们做了一些针对性设计,比如从人的 data description 里面去做统计,看人动作的分布,从而反向推导我们硬件,比如关节减速比是多少,电机的转速是多少,所以才有了这样1:1的设计。
就像 locomotion 领域越做越类人一样,要考虑人的很多的质量、惯量、运动习惯,这样最后硬件和数据间的 gap 才能最小。
雷峰网:这次 ICRA 上,它石反复提到 DexHand 不是单纯的末端执行器,而是一只“有脑子的手”。这个“有脑子”具体体现在哪里?
丁文超:我们理解的灵巧手,不应该只是一个能张合、能抓取的硬件。真正进入具身智能阶段后,手需要和数据、模型、物理世界连接起来,才能从“会运动”走向“会操作”。
DexHand 的“有脑子”,首先体现在它接入了 AWE 3.0 通用具身大模型。也就是说,灵巧手不是孤立执行指令,而是能够在模型的感知、理解和决策下,结合当前任务和接触状态调整动作。它背后是一套从Human-centric数据采集、AWE模型理解,到DexHand物理执行的手脑一体闭环。
![]()
雷峰网:高自由度灵巧手在线束等任务中有哪些独特优势?最后一厘米的问题是如何突破的?
丁文超:高自由度灵巧手能大幅提升任务执行效率,统计显示,用灵巧手完成任务的速度是夹爪的 3 倍,能显著提升生产效率。同时,灵巧手作为统一末端执行器,可以完成夹爪无法实现的复杂操作,避免了针对不同任务设计专用末端的问题,具备极强的硬件泛化性。
我们将灵巧手设计为 21 自由度,是因为21 自由度为硬件可承受极限内最贴近人手的配置,能最大化提升抓取和操作的泛化能力。
雷峰网:你们对灵巧手做了大量摩擦测试,这些测试对产线部署有什么帮助?
丁文超:摩擦测试主要覆盖两个层面的耐久度验证。第一是关节耐久度,早期高自由度灵巧手普遍存在电机易烧毁的问题,关节故障会导致算法迭代速度大幅变慢,我们针对性优化了关节设计,保证其持续稳定运行。第二是指尖耐久度,灵巧手的触觉硅胶指尖易磨损,我们发布过大型触觉数据集,深知触觉传感器磨损对数据采集和模型性能的影响,因此对指尖材料和结构做了大量测试和优化。
![]()
雷峰网:主要部署在哪些场景?
丁文超:像很多需要非常精细的场景,如电线缠胶等长程任务,这样只需更换末端就能胜任。所以灵巧手就是一个很好的选择。
雷峰网:你们的灵巧手开放预订了吗?价格怎么样?
丁文超:确实有很多客户想要预订,ICRA现场也一直都有人来问我们什么时候卖,卖多少钱(笑)。不过我们希望先把它迭代到一个非常稳定的工程化水平,再对外集中公布这些信息。
05
TacForeSight:
将模型从被动修正升级为主动预判
雷峰网:这次 ICRA 会发布的 TacForeSight 成果,其创新点在哪里?
丁文超:TacForeSight 是我们年初触觉世界模型及数据集工作的延续。灵巧操作的本质是通过接触改变世界,接触是核心,而触觉是唯一能直接感知接触的模态。我们此前的工作证明,触觉与视觉融合的世界模型能实现高频的动作微调,比纯视觉环路的修正更直接、更快。
TacForeSight 的核心创新是将模型从被动修正升级为主动预判。此前的模型只能在出现滑动、偏移等问题后被动修正,而基于视触觉世界模型,我们的模型能提前预判潜在问题并主动微调动作。比如抓取滑的物体时提前加大力度,在光滑地面行走时提前收力,操作姿态不佳时提前调整。
基于该技术,我们实现了柔顺刷卡、精细试管操作、动态擦花瓶等演示,未来可应用于抛光打磨、洗车等所有与接触相关的场景。我们认为触觉是未来灵巧操作的核心,会持续深化相关研究。
![]()
雷峰网:演示的任务设计有哪些考量?我们看到成功率超过80%,这在行业里处于什么水准?
丁文超:我们希望任务尽可能多一些,也更贴近于生活的实际场景。这个成功率在触觉的 paper 里,应该是 SOTA。
雷峰网:具体到场景,这个工作有什么应用?
丁文超:将来有一些柔性的、高精度的这种操作,是非常需要触觉的,因为视觉的反应频率只有30赫兹或60赫兹,但是你会发现你做非常精细的 manipulation 的时候,你要的反应频率就需要上百赫兹,而触觉是唯一一个在末端能够提供这么高频反馈的模态。
雷峰网:这次 ICRA 它石还有哪些入选成果可以分享?未来的重点工作是什么?
丁文超:还有一项关于空间感知与动作策略融合的成果。现有模型对视角变化非常敏感,如果采集数据的视角有 30 度扰动时,操作成功率会下降。我们将空间基础模型融入动作策略,让模型具备新视角的假想能力,大幅提升了视角变化下的操作成功率。
未来我们的核心工作有两点:第一是持续推进规模化,深化数据和模型的打磨,放大 scaling 效应;第二是打穿垂直场景,以线束场景为核心,逐步拓展更多场景。随着模型泛化能力的提升,新场景的工程化周期会大幅缩短。
雷峰网:我们看到ICRA现场有不少国内的年轻学者,它石和学术界有什么合作吗?
丁文超:我们今年ICRA发表了9篇paper,数量也是在具身企业中名列前茅;并且和清华、交大、复旦都有人才合作项目,未来肯定会再扩展到其他高校。今年 ICRA 我们还举办了人才晚宴,吸引各个学校的最 top 的学生。
雷峰网:最后聊聊行业,您认为阻碍具身智能商业化落地的最大因素是什么?
丁文超:核心瓶颈是模型的泛化性和吞吐率,吞吐率等于成功率乘以任务完成效率,这两个指标决定了机器人能否替代人工产生实际生产力。
雷峰网:明年具身智能行业可能出现哪些变化?
丁文超:第一,机器人的操作能力会取得重大突破,核心体现为 Zero-Shot 和 Few-Shot 能力的提升,在新场景中能快速展示出基础能力。第二,行业竞争烈度会大幅上升,两极分化加剧,规模化需要更大的资金投入和决心,头部效应会越来越明显。
雷峰网:假如未来具身智能进入 3.0 时代,需要达到什么标准?
丁文超:2.0 时代的核心是泛化,能在新场景达到 80% 左右的成功率;3.0 时代的核心是机器人能在多个不局限于单一领域的任务中,表现出超过人类的能力,虽未达到物理 AGI,但在多个细分任务上具备显著优势。





京公网安备 11011402013531号