对话它石智航丁文超：具身智能，如何迈进「2.0时代」？丨ICRA 2026

IP属地中国·北京 雷峰网 时间：2026-06-05 20:26:24

“基座模型、数据飞轮与末端执行缺一不可。”
作者丨高景辉
编辑丨马晓宁
2026 年 6 月的维也纳，ICRA 展厅里挤满了来自全球的机器人公司，三年前还在 PPT 上展示概念的具身智能，如今已经变成了满地跑的人形机器人。
但热闹之下，焦虑正在蔓延。当下的机器人虽然能跑能跳，但依然难以进入真实场景创造价值，形成技术和商业的闭环，其所需要的模型、硬件和数据能力，似乎也只有为数不多的企业具备。以至于业内的感受是，当下大多数的具身智能，都还停留在“1.0时代”。
那么，具身智能要如何进入“2.0时代”，实现阶段性的突破呢？
带着这个问题，雷峰网来到了 ICRA 2026 的现场，试图从全球具身智能领域的顶尖学术成果和头部企业中找到答案。
在这样的背景下，它石智航提供了一个值得观察的样本。作为两个月前刚完成中国具身智能最大单笔融资的明星企业，相比单独展示某个demo，它石智航选择对世界强调一套完整链路：从真实人类数据的采集，到模型侧成果AWE 3.0，再到此次正式首秀的灵巧手，与机器人本体复杂操作的执行。
这也让问题进一步聚焦：人形机器人要真正创造价值，比的已不是单一的“长板”，而是面面俱到的全栈能力？
为了回答这个问题，雷峰网在 ICRA 2026 现场与它石智航首席科学家丁文超博士进行了一次深度交流，试图从最顶级的这批从业者口中，找到具身智能通往2.0时代的钥匙。

01
具身智能进入2.0时代，离不开工程化能力
雷峰网：它石这次在 ICRA 上会带来模型、灵巧手及相关数采方案，为何选择这个时间点进行系列成果发布？
丁文超：主要有两方面原因。第一是行业规律，物理 AI 行业中往往会在关键技术积累到一定阶段后，迎来一波技术爆发，它石智航从成立到此次 ICRA，也基本走到了这样一个阶段，今年年中除 ICRA 外，我们还有其他成体系的对外展示规划，技术状态也已到位。
第二是 ICRA 是全球综合规模、含金量和技术扎实程度都属旗舰级的会议，受众覆盖大众，业界和学术界专家学者参与度高，国内赞助商均为头部企业，是很好的国际化展示窗口。当然不止是ICRA，后续几个节点我们也有相关发布规划。
雷峰网：现在有人将具身智能分为 1.0、2.0 时代，您认为出现这种区分的原因是什么？两个时代的本质区别在哪里？
丁文超：核心是技术范式的改变。具身智能大致分为几个阶段：首先是萌芽期，2023 年初到 2024 年，行业对具身智能的落地场景和实现方法尚不明确，企业主要做两件事，一是造本体，当时涌现出了大量本体公司；二是智能层面方法论不明晰，出现了 ACT、DP 等小模型。
接着是具身智能 1.0 时代，以 2024 年为代表，VLA 范式进入具身及自动驾驶等领域，该范式以遥操作为核心数据采集方法，以大模型为骨干网络加动作的“头”，实现一定泛化能力。这一时代催生了首批“大脑”企业，大家同质化地建设数据采集工厂、售卖机器人本体作为数采设备、训练 VLA 模型。但 1.0 时代存在明显问题：一是遥操作依赖限定场景的数据获取，无法深入千行百业；二是简单拼接 VLM 的模型架构并非根本解法，VLM 的泛化能力并未真正迁移到机器人上，行业对此较为失望。
2025-2026 年进入具身智能 2.0 时代，包括它石在内的公司开始探索更加 scalable 的数据采集方式和更通用的模型范式。2.0 时代有两大核心特征：一是以 Human-centric/Ego-centric 为核心的数据范式爆发，2026 年被称为无本体数据采集元年；二是以 World Action Model 世界动作模型为核心的模型范式爆发，其泛化性和可扩展性较上一代有明显提升。
未来具身还会迎来 3.0 时代，当前 2.0 时代主要在吸收预训练红利，3.0 时代将引入以世界模型为驱动的后训练能力，让具身智能同时具备泛化能力和场景生产力。每个时代都会催生新的技术范式和对应团队。
雷峰网：部分企业仍停留在 1.0 时代，他们卡在哪一步？是数据问题吗？
丁文超：短期来说是范式转变的难度。有一个反常识的点，尽管 Human-centric/Ego-centric 理念看似深入人心，但不少人仍对此持质疑和观望态度。这种状态在自动驾驶端到端技术推广早期也出现过，当时很多人质疑其安全性、可解释性，可能只有被市场倒逼时才会转向。
雷峰网：它石为何能快速进入 2.0 时代？
丁文超：核心有两点。第一是坚持第一性原理思考，这听上去很简单，但其实蛮难的。在 2024 年底 VLA 和遥操作火热时，我们就开始思考如何进一步 scale up，不受外部主流技术路线影响。
第二是极强的工程化能力，目前很多企业开始做 Human-centric/Ego-centric，但还未进入深水区，而我们 2025 年就已投入大量精力迭代数采设备，从零到一设计制造了一套可穿戴数采设备SenseHub，打通了适用于无本体数据的模型训练和部署范式，并在本体上优化到极致。这两点是我们能提前布局并取得成果的关键。
雷峰网：今年被很多人称为具身智能商业化元年，2.0 时代也很看重商业闭环能力，你们在商业化和真实场景应用方面有哪些进展？
丁文超：具身公司容易陷入两个极端，一是布局过多场景，分散注意力，拖慢基础模型迭代速度；二是不落地，只专注刷模型，这两种都无法形成良性循环。
其实参考大模型的商业化经验，大模型理论上可覆盖千行百业，其中 ROI 最高的是 Vibe coding，而这项能力还能反向解锁更多场景。具身智能目前也处于类似状态，在通用模型爆发前夜，既需要保持通用模型的持续竞争力，也要聚焦核心落地场景。
我们目前聚焦线束柔性装配场景，这个场景需要将柔性线束以毫米级精度插入孔位，完成长程连续的布线、插接及缠胶等工序，相当于制造汽车的“血管”。我们现在的商业化的进展还不错。
而之所以选择该场景主要有三点考量：一是单场景用工需求量大，避免了部分场景需求分散、设备用量少的问题；二是属于柔性制造且是长程任务，技术门槛高，同质化竞争少；三是能反向推动基础模型迭代。
雷峰网：上次在 AWE 上看到了你们的线束演示，和这次 ICRA 现场展示的有何不同？
丁文超：这次现场除了会展示线束子任务，还会展示多个其他任务，体现模型的泛化能力。和上次 AWE 展示不同，本次会展示线束长程任务，让模型端到端连续完成多根线的抓取、插接操作，过程中可自主纠错、自主适应，每根线的插入精度达到亚毫米级。

02
如果具身智能存在 scaling law，
一定是由原生基座模型涌现出来的
雷峰网：什么样的模型是好的模型？
丁文超：好的模型核心特点是要足够简单，只有简单的架构才容易规模化。好模型的架构清晰直接，但能消化各类数据。数据处理和模型部署的工程化可以复杂，但模型结构本身要简单直接。
对具身模型来说，这个领域其实没有新鲜事。VLA 模型的本质是大语言的 scaling law 被验证后，行业将 VLM 的泛化能力迁移到具身领域的尝试，但其核心问题是真正可规模化的部分与实际场景脱节。VLA 的训练数据分为两类，一类是易规模化的传统大模型数据，另一类是极少的机器人执行任务数据，两者严重不对等。所谓 VLA 的泛化能力其实是 VLM 的能力，并未真正迁移到机器人上，在全新场景中，VLA 仍需通过遥操作采集动作数据微调动作头部才能运行。
当前世界模型成为热点，核心是将视频预测模型应用于具身智能，视频预测模型本身具备 scaling law，相比 VLA 有两大优势：一是统一了跨本体问题，不挑视角，能吸收来自人或机器人的各类视频和动作数据，缩小了人与机器人任务数据的差距；二是放松了对现场遥操作数据的依赖。但世界模型仍是将视频模型能力迁移到具身领域，并非最优解。
目前行业头部公司都在追求训练具身原生基座模型，即从数据采集到模型训练、预测、推理全流程贯穿语言、视觉、动作三种模态，吸收千行百业的数据。如果具身智能存在 scaling law，一定是由原生基座模型涌现出来的。
我们的 AWE 模型全称是 AI World Engine，本质是以 AI 为驱动的世界引擎。仿真器难以规模化，而用数据学习的世界模型能同时告知未来的动作和动作的后果，具备极强的可扩展性，其终局是成为具身原生基座模型。
雷峰网：你们的模型相比其他世界模型和之前的 VLA，在实际执行任务时有什么优势？线束任务的出色效果是如何实现的？
丁文超：核心优势体现在数据和训练范式两个点上。第一，我们的无本体采集数据质量远超行业平均水平。很多企业低估了数据部署到机器人上的难度和精度要求，人作为灵活的本体，需要轻量且高精度的采集设备，我们自研的数采设备能获取高质量的人的末端动作数据，在数据多样性和动作精度上优势明显。
第二，我们采用了独特的技能转换训练范式。预训练阶段吸收大量人类数据后，在特定场景的后训练阶段，我们摒弃了遥操作采集数据的方式，因为遥操作容易引入抖动等噪声数据，纯人类数据训练反而更干净简洁。
模型精度的提升需要全流程打磨，从数据采集、动作标签增值、模型训练到部署，每个环节都存在技术难点。
雷峰网：这次 ICRA 现场它石展示了亚毫米级线束操作和打包任务，这两个任务分别有哪些技术难点？
丁文超：两个任务的难点差异明显。线束任务的核心难点是动作精细度要求极高，需要在操作柔性物体的同时达到亚毫米级精度。该任务对数据的稳定性要求极高，因为模型是端到端的，数据中的瑕疵会直接映射为模型的瑕疵。
打包等其他泛化任务的精度要求为毫米级或亚厘米级，核心难点是应对动态变化的任务场景，考验模型的自主纠错和自主恢复能力。这种能力只有在训练数据和任务的多样性、量级达到一定程度时才会涌现，我们本次展示的不同任务正是针对性体现模型不同层面的能力，现场还会设置互动任务，模型可克服人为扰动完成操作。

雷峰网：行业普遍担心世界模型的幻觉问题会导致严重后果，你们是如何解决这个问题的？
丁文超：如果直接将 video prediction（视频预测）引入世界模型，最常见的幻觉问题是穿模，比如模型视野中被抓取的物体突然消失，导致动作策略异常。
我们解决该问题的核心是对 3D 隐空间进行建模。现有世界模型普遍缺乏长时记忆，只有短时的像素到像素预测能力，而对空间的理解需要沉淀下来的长时信息。我们的模型在预训练阶段针对性强化了空间感知建模，在模型工作空间内基本能实现极强的一致性，这是 AWE 模型的特色之一。
雷峰网：在真实环境中，有哪些机制能保障模型工作的安全性和可靠性？
丁文超：主要有二层保障机制。第一，训练模型自主从错误中恢复的能力，训练阶段会特意加入相关数据进行针对性训练。第二，搭建完整的数据闭环体系，这也是从自动驾驶领域借鉴的经验。模型始终会犯错，关键是能回收失败案例的数据，通过快速的数据闭环挖掘正确数据和故障恢复数据，持续迭代模型。目前具身行业的数据闭环完备程度普遍低于端到端自动驾驶，我们正在加速搭建这套体系，实现模型安全性和可靠性的渐进式提升。
03
数据并非越多越好，重点是高质量数据
雷峰网：你们很早就提出了以人为中心的数据范式，为何从一开始就押注这条路线？对于遥操作、仿真合成、UMI 等其他数据采集方式您又是如何看待的？
丁文超：因为在我们的判断中，其他方式都无法支撑通用具身基础模型的规模化发展。
遥操作仅适合后训练，不适合预训练和规模化，无法走向通用具身基础模型。
仿真数据仅在局部简单任务中有价值，比如局部运动仿真，能模拟全身运动和环境的简单接触交互，但无法模拟真实世界的复杂交互，不具备可扩展性。
UMI 更多是科研态的方案，能通过单末端完成部分任务，为规模化提供科研牵引，但并非完整的系统，无法真正实现规模化。
我们自研的数采套件综合考虑了以上所有因素，具备三大特点：一是兼容多种采集模式，支持纯头带、头带加手套、头带加夹爪等组合；二是所有传感器均实现高精度时空同步，满足部署态要求；三是动作精度高，配套自动化数据管线可恢复动作和场景语义，且设备便携，能以人为中心获取各行各业的数据。

雷峰网：行业存在仿真和真机数据配比的争论，你们是否有明确的配比？
丁文超：目前行业基本共识是用 Human-centric 数据做预训练，但用仿真做后训练并非好选择，因为仿真器存在太多人工痕迹，适合做评测，无法支撑模型的持续自我提升。
数据配比需根据任务精度要求调整：对于线束这类精度要求极高的任务，基本采用全人类数据，因为只有人能达到对应的精度；对于亚厘米级精度的任务，可加入部分机器人数据。理想状态下，通用模型用 50 万小时人类数据做预训练，单个任务仅需 1 小时左右的单任务数据即可完成适配。
雷峰网：你们目前的数据积累进度如何？数据量增加是否会让模型能力提升更快？
丁文超：我们仍在朝着百万小时有效数据的目标推进。排除高度重复的无效数据后，我们每日获取的丰富多样的有效数据规模处于行业 top1。
随着数据量增加，模型能力提升速度的确会明显加快，这也是我们计划在 2026 年中进行系列发布的原因，预计 2026-2027 年具身智能在操作侧会取得巨大进步。
雷峰网：以后会不会发现实际需要的数据并没有那么多？
丁文超：数据并非越多越好。低质量的纯 ego 数据会越来越便宜、越来越平权，只能作为打底数据让模型具备基本认知，类似大模型的通用语料。互联网上的海量视频数据并未催生出通用具身智能，也证明了纯低质量数据的局限性。
而高质量的场景化数据价值会持续凸显，这和大模型的发展趋势一致，未来数据的竞争核心是高质量数据而非数据总量。
雷峰网：数据跨境和隐私安全是第三方数采公司关心的重点，您认为未来国内外数据是否会互通？
丁文超：未来国内外数据不互通的可能性较大，数据的流通性和场景高度相关。如果企业有海外业务，需要在当地合规、合法、符合隐私政策地获取数据。
04
好的灵巧手要“手脑一体”，
满足模型的部署需求
雷峰网：数据与硬件存在绑定关系，这是咱们自研硬件的原因之一吗？这次 ICRA 亮相的灵巧手有何特点？
丁文超：是的，很多公司低估了外采数据的难度，传感器配置的差异会大幅降低外采数据对模型的收益。同时，硬件是产品交付的核心，仅提供大脑方案无法形成完整产品。
灵巧手从技术路线上分为低自由度（11 自由度及以下）和高自由度（典型为 21 自由度）两类，低自由度多采用连杆式，高自由度以直驱 / 准直驱为主。高自由度技术可向下兼容低自由度，反之则不行。
高自由度灵巧手又分为绳驱和准直驱两条路线，优势是出力大，但一致性差，需动态调节且依赖新材料突破；我们采用准直驱方案，核心挑战是精密制造，需要在极小体积内集成 21 个自由度，同时平衡减速比、灵活性和负重，是硬件、软件、算法的全栈挑战。
目前能做到 20 自由度以上准直驱灵巧手的公司极少，同时具备高自由度灵巧手和对应模型的公司更是屈指可数。
雷峰网：在你看来，一个好的灵巧手最需要什么特质？
丁文超：能满足模型部署的需求。比如在实际部署时会有很多执行的 gap，所以我们做了一些针对性设计，比如从人的 data description 里面去做统计，看人动作的分布，从而反向推导我们硬件，比如关节减速比是多少，电机的转速是多少，所以才有了这样1:1的设计。
就像 locomotion 领域越做越类人一样，要考虑人的很多的质量、惯量、运动习惯，这样最后硬件和数据间的 gap 才能最小。
雷峰网：这次 ICRA 上，它石反复提到 DexHand 不是单纯的末端执行器，而是一只“有脑子的手”。这个“有脑子”具体体现在哪里？
丁文超：我们理解的灵巧手，不应该只是一个能张合、能抓取的硬件。真正进入具身智能阶段后，手需要和数据、模型、物理世界连接起来，才能从“会运动”走向“会操作”。
DexHand 的“有脑子”，首先体现在它接入了 AWE 3.0 通用具身大模型。也就是说，灵巧手不是孤立执行指令，而是能够在模型的感知、理解和决策下，结合当前任务和接触状态调整动作。它背后是一套从Human-centric数据采集、AWE模型理解，到DexHand物理执行的手脑一体闭环。

雷峰网：高自由度灵巧手在线束等任务中有哪些独特优势？最后一厘米的问题是如何突破的？
丁文超：高自由度灵巧手能大幅提升任务执行效率，统计显示，用灵巧手完成任务的速度是夹爪的 3 倍，能显著提升生产效率。同时，灵巧手作为统一末端执行器，可以完成夹爪无法实现的复杂操作，避免了针对不同任务设计专用末端的问题，具备极强的硬件泛化性。
我们将灵巧手设计为 21 自由度，是因为21 自由度为硬件可承受极限内最贴近人手的配置，能最大化提升抓取和操作的泛化能力。
雷峰网：你们对灵巧手做了大量摩擦测试，这些测试对产线部署有什么帮助？
丁文超：摩擦测试主要覆盖两个层面的耐久度验证。第一是关节耐久度，早期高自由度灵巧手普遍存在电机易烧毁的问题，关节故障会导致算法迭代速度大幅变慢，我们针对性优化了关节设计，保证其持续稳定运行。第二是指尖耐久度，灵巧手的触觉硅胶指尖易磨损，我们发布过大型触觉数据集，深知触觉传感器磨损对数据采集和模型性能的影响，因此对指尖材料和结构做了大量测试和优化。

雷峰网：主要部署在哪些场景？
丁文超：像很多需要非常精细的场景，如电线缠胶等长程任务，这样只需更换末端就能胜任。所以灵巧手就是一个很好的选择。
雷峰网：你们的灵巧手开放预订了吗？价格怎么样？
丁文超：确实有很多客户想要预订，ICRA现场也一直都有人来问我们什么时候卖，卖多少钱（笑）。不过我们希望先把它迭代到一个非常稳定的工程化水平，再对外集中公布这些信息。
05
TacForeSight：
将模型从被动修正升级为主动预判
雷峰网：这次 ICRA 会发布的 TacForeSight 成果，其创新点在哪里？
丁文超：TacForeSight 是我们年初触觉世界模型及数据集工作的延续。灵巧操作的本质是通过接触改变世界，接触是核心，而触觉是唯一能直接感知接触的模态。我们此前的工作证明，触觉与视觉融合的世界模型能实现高频的动作微调，比纯视觉环路的修正更直接、更快。
TacForeSight 的核心创新是将模型从被动修正升级为主动预判。此前的模型只能在出现滑动、偏移等问题后被动修正，而基于视触觉世界模型，我们的模型能提前预判潜在问题并主动微调动作。比如抓取滑的物体时提前加大力度，在光滑地面行走时提前收力，操作姿态不佳时提前调整。
基于该技术，我们实现了柔顺刷卡、精细试管操作、动态擦花瓶等演示，未来可应用于抛光打磨、洗车等所有与接触相关的场景。我们认为触觉是未来灵巧操作的核心，会持续深化相关研究。

雷峰网：演示的任务设计有哪些考量？我们看到成功率超过80%，这在行业里处于什么水准？
丁文超：我们希望任务尽可能多一些，也更贴近于生活的实际场景。这个成功率在触觉的 paper 里，应该是 SOTA。
雷峰网：具体到场景，这个工作有什么应用？
丁文超：将来有一些柔性的、高精度的这种操作，是非常需要触觉的，因为视觉的反应频率只有30赫兹或60赫兹，但是你会发现你做非常精细的 manipulation 的时候，你要的反应频率就需要上百赫兹，而触觉是唯一一个在末端能够提供这么高频反馈的模态。
雷峰网：这次 ICRA 它石还有哪些入选成果可以分享？未来的重点工作是什么？
丁文超：还有一项关于空间感知与动作策略融合的成果。现有模型对视角变化非常敏感，如果采集数据的视角有 30 度扰动时，操作成功率会下降。我们将空间基础模型融入动作策略，让模型具备新视角的假想能力，大幅提升了视角变化下的操作成功率。
未来我们的核心工作有两点：第一是持续推进规模化，深化数据和模型的打磨，放大 scaling 效应；第二是打穿垂直场景，以线束场景为核心，逐步拓展更多场景。随着模型泛化能力的提升，新场景的工程化周期会大幅缩短。
雷峰网：我们看到ICRA现场有不少国内的年轻学者，它石和学术界有什么合作吗？
丁文超：我们今年ICRA发表了9篇paper，数量也是在具身企业中名列前茅；并且和清华、交大、复旦都有人才合作项目，未来肯定会再扩展到其他高校。今年 ICRA 我们还举办了人才晚宴，吸引各个学校的最 top 的学生。
雷峰网：最后聊聊行业，您认为阻碍具身智能商业化落地的最大因素是什么？
丁文超：核心瓶颈是模型的泛化性和吞吐率，吞吐率等于成功率乘以任务完成效率，这两个指标决定了机器人能否替代人工产生实际生产力。
雷峰网：明年具身智能行业可能出现哪些变化？
丁文超：第一，机器人的操作能力会取得重大突破，核心体现为 Zero-Shot 和 Few-Shot 能力的提升，在新场景中能快速展示出基础能力。第二，行业竞争烈度会大幅上升，两极分化加剧，规模化需要更大的资金投入和决心，头部效应会越来越明显。
雷峰网：假如未来具身智能进入 3.0 时代，需要达到什么标准？
丁文超：2.0 时代的核心是泛化，能在新场景达到 80% 左右的成功率；3.0 时代的核心是机器人能在多个不局限于单一领域的任务中，表现出超过人类的能力，虽未达到物理 AGI，但在多个细分任务上具备显著优势。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

腾讯发布具身智能全栈方案 WorkBuddy月访问量达2097万次

太保科技与阿里云达成AI战略合作

腾讯的「具身智能」：连接器的故事，在物理AI时代还讲得通吗｜WAIC观察

AI医疗卷了10年终于悟了：不用替代医生，而是给医院装上超强buff

OpenAI高管批Kimi K3开源，硅谷多方驳斥其观点

Kimi回应马斯克隔空宣战：欢迎加入2万亿+俱乐部

全站最新

腾讯发布具身智能全栈方案 WorkBuddy月访问量达2097万次

太保科技与阿里云达成AI战略合作

腾讯的「具身智能」：连接器的故事，在物理AI时代还讲得通吗｜WAIC观察

AI医疗卷了10年终于悟了：不用替代医生，而是给医院装上超强buff

热门推荐

2026上半年大三排SUV销量：纯电18.5万台登顶，增程持续下滑

腾讯发布具身智能全栈方案 WorkBuddy月访问量达2097万次

太保科技与阿里云达成AI战略合作

腾讯的「具身智能」：连接器的故事，在物理AI时代还讲得通吗｜WAIC观察

AI医疗卷了10年终于悟了：不用替代医生，而是给医院装上超强buff

OpenAI高管批Kimi K3开源，硅谷多方驳斥其观点

Kimi回应马斯克隔空宣战：欢迎加入2万亿+俱乐部

机器人在WAIC扎堆“干活”

消息称比亚迪海狮08将于8月上市，有5座和6座车型版本

微软将在Azure云服务上部署AMD Helios机架系统，用于AI推理

小米安全中心通报：涉事白帽子构成实质性安全侵害，取消全部奖励并保留追责权

AI跃升类人生命体，荣耀Robot Phone开启物理世界新交互预约热潮

苹果AI入华“妥协”：借阿里百度之力，守硬件入口争未来之局

隐私争议加剧，Meta智能眼镜遭遇公众信任危机

波音：预计全球航空公司未来20年将需要近44000架新飞机