当前位置: 首页 » 资讯 » 科技头条 » 正文

真正聪明的机器人,关门不用手,用胯骨轴

IP属地 中国·北京 编辑:李娜 爱范儿 时间:2026-01-29 12:52:01

昨天,硅谷机器人巨头 Figure AI 发布了 Helix 02 ——官方称之为「一个视觉-语言-动作(VLA)通用模型」。

最直观的展示?一台 Figure 03 机器人走到碗柜前,打开柜门,从堆叠的碗碟中挑出一个,转身走向洗碗机,调整角度,稳稳放进去。

全程自主,没人遥控,更没有一个碗碟受到伤害

洗碗:具身智能的「地狱难度」测试

为什么演示下厨房?因为这是家务劳动里的「地狱难度」。

人类挪动厨具感觉很简单,但对于机器人来说,每一个关节的运动都是挑战。

我们拆解一下洗碗的动作链就知道了——

首先,它非常考验机器人的环境识别空间移动能力:

机器人(与机器人使用的模型)要判断自己的位置,识别碗柜、水槽、洗碗机的位置关系,然后规划路线走过去。

走到碗柜旁边,还得停在合适距离——太近打不开柜门,太远够不着碗。

看到餐具之后,还得识别类型:瓷盘、玻璃杯、塑料碗,每种都需要不同的姿势和力度。

捧起来,还得检测要放进洗碗机的哪个位置,盘子放下层、杯子放上层,餐具放侧边。

其次,下厨房对立体视觉触觉反馈也有要求:

陶瓷很脆、玻璃很滑、塑料会变形,机器人需要精准的触觉反馈控制力度——太轻会滑落,太重会捏碎。

Helix 02 模型的突破就在这里。

结合视觉、触觉、压力、电感等等多种 sensor,它有了一套多维度的立体视觉能力,能准确判断碗在堆叠中的位置和深度。

Figure 03 机器人的手上也集成了力反馈机制,能「认知」到自己施加的力量,知道何时接触到了瓷器表面。

抓碗时,系统实时感知接触力度。碗放歪了?调角度。碰到柜门了?后退一点。

最后,还有视觉记忆,这也是 Helix 02 模型本次的主要升级点:

这意味着机器人能记住刚才看过的东西。

打开碗柜时,即使现在的角度看不到某个碗,它也记得刚才瞥见过,并根据记忆调整动作。

重复把放碗进洗碗机时,它也能记得哪些位置满了,哪里还有空间——

不需要每次重新扫描,大大提高了动作的执行效率。

Brett Adcock,Figure AI 的创始人兼 CEO 在 X 上强调:

没有远程遥控,运行(这个机器人)的是 Helix,从走路到抓握,以及规划。

Brett Adcock 还重申,同样的通用架构之前让机器人学会了叠毛巾、整理包裹,现在又学会了洗碗。

不需要任何新算法或任务专用工程,只需要新数据。

眼下唯一的限制就是预训练数据,只要我们给 Helix 喂入更多数据,机器人就能处理更多任务。硬件不需要任何改变,它已经能做大部分人类能做的任务了。

这条推文下面,有 X 用户评论:「第一次看到人形机器人真的在家里做任务,让我意识到我们离这个未来有多近。」

把机器人送进宝马打工的明星公司

另一边,Figure AI 绝不是那种在实验室里纸上谈兵的「创想公司」。

三年的时间里,Figure AI 的估值从 0 来到 390 亿美元,得到了包括贝佐斯基金、OpenAI、微软、英伟达的投资助力。

2024 年 2 月,Figure AI 结束 6.75 亿美元 B 轮募资,25 年 9 月又完成了 10 亿美元 C 轮,渴求进步的速度快得惊人。

创始人 Brett Adcock 还是个成功的连续创业者。

2018 年,Adcock 把招聘平台 Vettery 卖了 1 亿美元,转头创办电动飞机公司 Archer Aviation,2021 年借助 SPAC 上市时合并估值近 38 亿美元。

进入机器人领域后,Adcock 陆续从波士顿动力、特斯拉、谷歌 DeepMind 挖来了一堆顶尖人才,Figure AI 的技术实力迅速增长。

▲ Brett Adcock(右)

这种人才模式也赋予了 Figure AI 最大的特点:

「脑子」和「身体」一起造,既掌控硬件、也生产系统。

这里的「脑子」指的自然是 Helix AI。

从最初与 OpenAI 合作研发,到现在完全自研,Figure AI 成功把模型话语权牢牢握在手里。

例如 Figure 03 机器人采用了一套「System 0、System 1、System 2」的多层控制架构——

▲ Figure 03

System 0 负责机身运动控制,解决机身平衡、手指接触、环境扰动等底层控制问题,作用很像人类的小脑。

在此基础上,System 1 负责处理 Figure 02 的视觉-运动策略(visuomotor policy),System 2 负责运行视觉语言模型:

▲ 去年演示的 Figure 02 就使用了 System 1+2 的上半身模型

三层协同,最终实现了 Figure 03 可以自主理解指令,认知周围环境,并决定机身如何运动的循环。

而「身体」指的当然是 Figure 机器人硬件——

之前小规模试产的 Figure 02 配备 6 个 RGB 摄像头、双 GPU 模组,手部拥有 16 个自由度,最大搬运重量 25 公斤。

Figure 02 的电池续航在 5 小时左右,正好够一个工作班次。

▲ Figure 02

到了最新的 Figure 03,它的每只手掌都内嵌摄像头和触觉传感器,可以实现最低 3g 的压力检测。

换个说法就是,Figure 03 的手掌更加细致灵活了:

▲ Figure 03

更关键的是,Figure AI 的机器人「肯进厂」,拥有快速组装送往实战的能力。

2024 年 1 月,Figure AI 跟宝马合作,把一批 Figure 02 送到了南卡罗来纳州的宝马总装线。

在那儿,Figure 02 负责把钣金零件精准放置到固定装置里——大型固定式机器臂难以照顾的精细活儿。

这些 Figure 02 在宝马累计工作了 11 个月,总行走里程近 200 英里,搬运了超过 9 万个零件,协助生产了超过三万辆宝马 X3。

Adcock 还晒出了布满划痕和磨损的机器人照片,表明这是一次「真刀真枪」的商业验证:

看到机器人拧螺丝,宝马生产部门董事 Milan Nedeljković 总结:

通过早期测试,我们正在确定人形机器人在生产中的可能应用。我们未来希望可以从(机器人的)技术开发阶段就参与进来。

Figure AI 跟 OpenAI 的关系也是关键。

比如在 2024 年,OpenAI 不仅给 Figure AI 提供了投资,甚至帮助开发了语音模型,让机器人能接受自然语言指令。

尽管 Figure 后来转向自研 Helix,但这段合作实质上为 VLA 模型打下了一个基础。

无独有偶,今年 CES 上,我们看到了一个明显趋势:

家电巨头都开始挑战「家居机器人」

类似 LG 和海信都展示了能在家里自主移动、协助做家务的机器人原型,说明传统家电企业纷纷开始意识到:

下一代智能家电不是算力更强的冰箱或洗衣机,而是能直接操作这些设备的机器人。

▲ LG CIOiD 家居机器人

甚至在这场「变人」竞赛中,国内厂商的布局更加激进——

就在刚刚,蚂蚁集团旗下灵波科技开源了具身大模型 LingBot-VLA。

LingBot- VLA 作为一个面向真实操作场景的「智能基座」,实现了机器人跨本体、跨任务泛化能力。

根据灵波科技的数据,LingBot-VLA 在包含 100 项真实操作任务的 GM-100 评测中,刷新了真机评测的成功率纪录。

▲ 灵波科技首款机器人 Robbyant-R1

不只是蚂蚁,京东、阿里、腾讯、华为、比亚迪、小米——几乎所有科技巨头都在布局具身智能。

2024 世界人工智能大会上发布的《人形机器人产业研究报告》指出:

2024 年中国人形机器人市场规模达 27.6 亿人民币,2029 年有望扩大至 750 亿元,到 2035 年更是可能激增至 3000 亿元。

远的不说,今年春晚可能成为「机器人含量最高」的一届。

目前已经有多家具身智能公司有望登台展示——不是摆设,是真能上台唱跳 rap 的那种。

机器人配齐了「脑子」和「身体」,准备好进千家万户了。

而 Figure AI 的 Helix 02 证明了「通用具身智能模型」的可行性:

厂商其实不需要为每个任务单独编程,不需要收集巨量推演数据,只要一个足够强的 VLA 模型,机器人就能自己理解指令、自己熟悉环境、自己生成策略

▲ 它甚至知道省力

就像 GPT 之于语言,Helix 之于具身智能一样,今天机器人能刷碗、打螺丝,明天它就能照顾你的饮食起居。

家里散养个机器人,这事儿可能真没想象中那么遥远了。

标签: 机器人 模型 智能 视觉 科技 触觉 灵波 公司 宝马 任务 人形 动作 环境 能力 人类 碗柜 关系 精准 塑料 力度 杯子 动力 人才 洗碗机 学会 脑子 巨头 洗碗 螺丝 立体 蚂蚁 纸上谈兵

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。