当前位置: 首页 » 资讯 » 科技头条 » 正文

物理 AI 的早期答案,可能先出现在工厂里

IP属地 中国·北京 极客公园 时间:2026-05-28 20:25:43


对话微亿智造:工业 具身智能的终局可能在哪里。


作者|Li Yuan

编辑|郑玄

过去两年,人形机器人和具身智能持续升温,融资、Demo、技术叙事共同推动行业进入高关注周期。但热潮向前推进的同时,另一个问题也越来越清晰:工业场景并不会因为一个新概念的出现而自动降低门槛。

直到今年,一批喊出「进工厂」的公司真正走到工业现场后,行业才更清楚地看到:Demo 能跑通,不等于系统能在工厂里长期、稳定、低故障地运行。Figure AI 这样的明星公司也开始从展示技术想象,转向证明连续作业能力。

资本和产业端的关注点正在发生变化:企业到底有哪些可复制的落地场景?客户为什么愿意买单?ROI 能不能算得过来?

极客公园最近接触到的微亿智造,正是一家在这个阶段更值得我们研究的公司。

微亿智造是一家工业具身智能公司,从公司早期开始将当时的先进生产力——有AI感知的机械臂带进工厂。此后,微亿智造持续沿着真实产线需求升级具身能力:从感知到执行,再进一步补上决策与反馈,让机器人不只是完成固定动作,而是能在复杂、非标、高约束的工业现场中理解任务、判断状态并稳定作业。

目前,微亿智造的具身智能机器人已经在工业场景中落地外观检测、焊接、打磨、装配等环节,今年以来,也在向最前沿的物流场景的分拣、码笼、码垛等任务上延伸。

在这一波具身智能的浪潮中,很多人看不懂微亿智造,以为产品用了机械臂的形态就等于不是具身智能。不过,近年来共识正在收敛——工业场景需要最适合它的物理形态,而这并不一定是人形。

2023年以来,微亿智造的订单规模持续增长,研发投入也不输许多通用机器人公司。

2023 年至 2025 年,公司研发投入分别为 1.78 亿元、1.65 亿元和 2.35 亿元,占各期总收益的比例分别为 41.1%、27.5% 和 29.6%。近三年算力投入从0.52亿元增至1.51亿元。

这组数据指向的,正是工业具身智能需求正在被真实验证的现实场景:一方面,订单增长说明工厂端确实在为这类能力买单;另一方面,持续高比例的研发与算力投入,也说明微亿智造并不是在做传统自动化项目,而是在围绕感知、决策、执行和反馈能力持续加码。


我们采访了微亿智造董事长兼 CEO 张志琦。他聊到了从 2018 年起,公司如何一步步把 AI 技术落到工业现场;也聊到了在真实工厂里,VLA 哪些能做,哪些暂时还不能做,以及工业具身智能的终局可能在哪里。

01

从 2018 年开始,把 AI 引入传统机械臂

极客公园:微亿智造把自己的产品称为“工业具身智能机器人”。但从外形上看,它似乎仍然是机械臂、相机、工装和产线设备的组合。比如外观检测,传统机械臂也能做,工业具身智能机器人也能做。两者到底有什么区别?

张志琦:是的,两个产品都能做外观检测,但它们应用的技术不一样,最后给客户带来的价值也不一样。

微亿智造 2018 年刚成立时,主要产品其实更像是传统自动化产品:一个定焦相机负责拍产品,把图像采集完之后,再用 AI 模型判断它属于哪一类缺陷,最后把不同缺陷的产品分开处理。

这虽然也是使用 AI 赋能了检测,但还不能称之为工业具身智能,因为本质上,机器做的每一步仍然是被编程设定好的。

到 2022 年左右,微亿智造接到一个大客户项目:为两米多长的大型一体化压铸件做检测和打磨。

这个零件有近 3000 个拍摄点位,客户要求整套流程在 10 分钟以内完成。但传统机械臂很难做到——光是按照固定轨迹打磨一遍,就要一个小时,而熟练工人只需要七八分钟。

差距不在机械臂速度,而在判断能力。人会先看哪里有问题,再只处理有缺陷的位置;传统机械臂则只能按预设路径把所有位置走完。这个客户此前花了两年多找服务商,都没能解决。

微亿智造后来重新设计了一套「查打一体」的工业具身智能机器人。它的基础,是公司从 2018 年到 2020 年逐步做出的飞拍技术,让机械臂能够不停歇地连续拍摄,在 5 分钟以内拍摄 3000 个点位。

更关键的是,在这套系统里,点位和轨迹开始能由算法自动生成。


因为轨迹不再需要提前设计好,系统可以做到像人一样先识别目标和缺陷,再决定哪些地方需要打磨,生成轨迹。最后,这套设备把检测和打磨节拍压到了 7 到 10 分钟之间,接近人工水平。

「看见—判断—处理」的能力,正是传统自动化和工业具身智能的分界。

极客公园:如果说在检测和打磨里,具身智能解决的是“先看见,再判断,再处理”的问题,那么其他场景里,它和传统机械臂的差别会体现在哪里?

张志琦:比如2024年我们展示的具身智能装配机器人为例,差别变得更加明显。

在一些简单装配任务里,我们现在可以做到:人做一遍,机器人看一遍,然后机器人理解人是怎么做的,再用双臂协同完成整个装配过程。

对工业客户来说,示教成本非常关键。在真实工厂里,因为每台设备安装时都有公差,传统机械臂需要每台设备都分别示教,没办法符合柔性生产的需求,太麻烦了工厂宁愿选择直接用人。

但我们现在可以做到通过一次视觉示范,让机器人理解人是怎么做的,这会大大缩短客户导入的时间。


除此之外,机器人开始能处理现场里的不确定性。

比如零件已经抓到了,你把它拿走,它会自己再去找;它本来要沿着一条路径去取料,你把轨迹挡住,它会想办法绕开。过去传统机械臂更多是把工程师预编程的动作执行出来,而有「大脑」的机器人,可以根据现场变化重新做判断。

我们现在也在做物流行业的码笼场景,机器人能兼容各类箱体和包裹,设计放置策略智能分笼。这都是传统机械臂做不到的。

02

当 VLA 撞上 0.1 毫米的工厂现实

极客公园:做到这些,我们使用的是VLA的技术吗?普遍印象里,VLA的技术才能带来泛化性。

张志琦:我们认为在工厂现场,大体可以分为两类工种:一类叫技术工种,一类叫普工。

技术工种的知识,很多时候只在老师傅身上,必须到具体现场里才能获得。比如打磨、焊接、检测,在技术工种这一层,我们使用的不是 VLA架构,甚至我们认为未来也不一定会使用 VLA 架构。

它可能基于规则引擎,基于目标对象理解、认知、轨迹规划和执行,甚至在执行过程中形成有效纠偏,不断优化轨迹,就能够更快速、更高效地实现。它仍然是AI技术,但模型参数可能不需要太大——百亿、大几十亿就能解决问题。

微亿智造已经积累由真实工业场景产生的、业内规模最大的非结构化精标数据库,数据量超过23TB,形成数据飞轮。现在微亿智造利用过往项目类似工艺中积累的海量精标数据及模型,生成高效的预训练模型,可以大幅缩短新项目AI模型的训练时间及成本,将部署周期从传统模式下的数月压缩至数周。

而普工类,比如码垛、上下料、分拣。普通人来了都能三十分钟上岗,只要对物理世界有认知就可以。

我们认为需要去开始部署端到端的技术,用大量生活数据灌出一个操作泛化性更强的模型,然后再通过工厂特定场景进行一定的模型泛化,再去落地实现。我们从二三年前开始前瞻性地去看VLA这样的技术,今年开始项目POC。

极客公园:我们目前POC的项目情况如何?

张志琦:我们目前在 POC 几个不同的场景。

物流场景比如无序码笼。无序码笼指的是箱体大小不一致,要把它码到一个大的笼子里,供下一步物流处理。


今天,我们对箱体目标对象的认知,轨迹规划怎么有效处理,异常情况怎么通过人机配合处理完毕,还不能全部算作端到端,需要一些兜底策略。

但我们在过程中也在不断积累数据。客户也愿意和我们共建这个场景。我们正在试图解决的问题和通用机器人公司在工业领域试图解决的问题是类似的。

甚至我们自己看起来,像无序码笼这样的任务,技术难度甚至比供料更高,因为箱子本身需要一定的策略去堆叠,而不是简单的把快递翻面。大箱子铺底,小箱子找地方插进去。如果箱子有破损、异形件、易损件,都需要特殊处理,这里面有大量人的经验在起作用,对感知和决策都提出了更高的需求。

极客公园:会不会存在一种情况,VLA未来发展的足够好,把所有原来的专用场景的小模型覆盖的领域都覆盖掉了?

张志琦:未来的技术发展很难判断。至少最近三五年内,不太可能在技术工种场景里用 VLA 把它替代掉,即使普工场景也很难马上替代。

原因之一是 VLA 目前的精度不够,就算强优化完,也大概是厘米级,或者几毫米级。但像 CNC 上下料这样的场景,虽然属于普工范畴,需要的误差在0.1 毫米以内,而且不允许出错,那就仍然没法用 VLA做。


不是所有场景都需要上一个最大的模型,也不是所有场景都应该被 VLA 覆盖。

我们 2018 年开始做的,前面说的偏自动化设备的「AI 赋能的智能化产品」,到今天仍然还是有收入。就是因为那些场景下,原有自动化配合简单的 AI 能力已经能解决好问题了,那就应该继续做。

极客公园:如果 VLA 不是唯一答案,物理 AI 会不会是一个更大的技术框架?您怎么理解它和工业具身智能之间的关系?

张志琦:如果从技术实现来看,业内讲物理 AI,很大概率是在讲世界模型。也就是让 AI 能够理解物理空间、物理场景、物体之间的关系,以及物理规则本身。

具身智能更强调「本体」和「模型」的深度结合,物理 AI 承载的可能比具身智能更大。它不一定必须绑定某一种机器人本体。未来如果世界模型足够强,机器人本体反而可能没有那么重要。

我们认为工业场景会是物理 AI 相对更早落地的方向之一。原因很简单:工业场景中的对象相对有限、任务边界相对清晰,所以技术上更容易达到可用状态。

03

竞争对手将是越来越不像人的人形机器人

极客公园:今年以来,微亿智造的客户情况有什么变化?

张志琦:客户在行业层面一直在扩展。新能源汽车、3C 消费电子这些原有客户,每年都持续下单,包括原有场景的复制和新场景的落地。

工业场景,客户信赖是很重要的。客户会觉得原来这个很好用,就会问这个新场景还有一堆人,能不能换。我们跟着客户的需求再往前推进。

今年比较欣喜的是海外也开始从 0 到 1。未来两三年,我们希望海外收入做到 20% 到 30%。一方面,把国内打磨过的成熟产品通过海外渠道快速推;另一方面,海外也有自己的需求。有些项目在国内 ROI 算不过来,在海外可能能算过来。

极客公园:下一步技术能力上,更关注什么部分?

张志琦:下一步是把触觉能力进一步打通。今天很多项目不太敢碰,核心就在触觉。比如插拔、理线,都和触觉有关。

但触觉的技术发展远低于视觉。把触觉加进去,整个模型会发生很大变化,甚至不一定是语言模型。

我们的判断是:触觉模型加入后,视觉仍然会起重要作用。纯触觉能做的事情很少,但结合视觉判断后,能做的事情会多很多。

从去年开始,我们已经在做触觉方面的前沿研究,更多是把触觉模型做深度融合。两套技术都在看:霍尔和视触觉。

极客公园:未来三年,你认为工业具身智能哪些细分赛道会进一步爆发?

张志琦:人多的地方都有机会。哪怕具身侧收入每年翻番,我也不觉得离天花板接近了。技术还要继续提升。

但我觉得现在还离真正爆发很远。如果真要说爆发,那应该是工厂里人明显减少,甚至下降 4/5 还能生产。

以前工厂是把人当机器。质检对眼睛伤害很大,强光下看产品,20 多岁的小姑娘看两年,眼睛可能就不行了。拆码垛这种重体力活,对人的腰和身体也有不可逆损伤。

极客公园:未来的竞争中,传统工业机械臂公司、微亿智造这样的工业具身智能公司,以及追求泛化 AGI 的具身智能公司,各自优势和短板是什么?

张志琦:我们的优势还是场景理解。很多公司说「我也能干」,那就来试试。具身最好玩的地方就是,是骡子是马,牵出来遛遛,客户买不买单最清楚。


在 ROI 可计算的情况下能不能完成,这是最基本的工业第一性原理。

今天我们的竞争对手可能很多还是自动化公司。坦白讲,自动化公司里也有能工巧匠,可以做出一些结构和构型,满足柔性生产需求。

但中长期看,大概率是做得越来越不像人的人形机器人公司。

对于追求AGI的具身智能公司而言,估值核心还是生活场景,但生活场景又太难。走着走着就会偏向工业,又发现纯人形不是合适架构,于是开始做泛人形。泛人形在生活场景里又有问题。

这两年人形公司已经开始讲,我们的产品叫泛人形。泛人形的问题是它还要加个「人形」,因为有人形公司的包袱,还得加个头。你说有啥差异?没啥差异。

我觉得这些都是最早坚持全人形结构时,大家讲给投资人听的故事。到今天实操上,大家都会觉得有成本。多一个关节、多一个自由度,计算算力要求就会很高。一个全身四五十个自由度,要多少算力才能完成?

回到工厂场景里,还是那句话,工厂在意的是能解决问题。

极客公园:只做工业的话,外界会不会担心你们在一个个的项目交付中损耗了精力,没有更多的技术力量往更高的目标上去走?

张志琦:这个担心有点多。今天在 AI 技术投入上,微亿和国内绝大多数 AI 公司是比较接近的。我们不是以项目交付为根本,而是以研发为核心。

我们这一代 AI 公司和上一代AI公司相比,最大的差异是:物理 AI 世界里一定有一个载体。有载体,就有和物理世界的交互,就有反馈机制,有新的数据出来。所以也一定会有一批新公司出来。

极客公园:你觉得市场宣传或投资人叙事里,最不靠谱的是什么?

张志琦:以前发一个机械本体、一个人形外观,大家就觉得这家公司能做人形。到今天,二级市场上这类公司也很多,但再发一个人形外观,大家已经不信了。

以前很多演示背后有人遥操,大家还不知道。现在大家慢慢理解,有些是自主,有些是遥操。这个变化的核心,是大家越来越认识到 AI 在这里面是核心,也知道有些公司做的是运动控制,不做大脑。

所以对我们来说,过去可能吃亏的是外形看起来像机械臂。但现在我们更希望大家理解,有脑和没脑的机械臂差别很大。

*头图微亿智造

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

极客一问

你如何看待工业具身智能?

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新