当前位置: 首页 » 资讯 » 科技头条 » 正文

银河通用王鹤:人形机器人走进“手眼脑”时代

IP属地 中国·北京 编辑:钟景轩 人民网 时间:2025-07-28 18:22:49

吕骞



2025WAIC上,王鹤展示银河通用的人形机器人。人民网 吕骞摄

在今年的世界人工智能大会(WAIC)上,超150台人形机器人同台“出道”。它们正走出实验室,走上春晚舞台成为“网红”,走进工厂商超成为真正干活的“劳动力”。这不仅是“数字大脑”向“物理智能”的跃迁,也意味着中国制造在全球新一轮产业竞赛中的起跑。

本期播客邀请了北京大学助理教授、银河通用机器人创始人及CTO、智源学者王鹤,他带领团队用两年多的时间,把“端到端VLA大模型”第一次搬上了真实产线、真实货架——不靠轨迹预编程,而是靠眼睛、大脑和手的实时配合,就能在拥挤的零售货架前完成抓取、避障、交付。下一个十年,机器人会如何走进现实?答案正在上海这座展馆里萌芽。

对话AI摘编:

主持人:观众最关心的是,这次WAIC银河通用到底带来了什么“能上手”的新东西?

王鹤:一句话——全球首个真正跑在端到端VLA大模型上的智慧零售机器人:观众在iPad上下单,机器人自己走过去、用“手眼脑”实时闭环,把指定商品取下来,再递到你手里。整个过程不依赖任何预置轨迹,完全靠视觉和语言指令实时生成动作。

主持人:这和药房自动取药的机械臂有何区别?

王鹤:关键在“非结构化”。传统药房的自动化滑道类似巨型自动售货机,需要中心大药房、统一滑道,空间、资金门槛都很高。我们把人形机器人做成“即插即用”的劳动力,夜间值守、白天补货,成本大幅下降,而且不需要改造原有店面结构。

主持人:您把人形机器人演进分成“三个时代”,能再通俗解释一次吗?

王鹤:1967-2017是“雏形时代”,ASIMO、Atlas全靠提前写轨迹,拍视频可以,落地没戏;

2022起进入“运动时代”,用强化学习在仿真里训、再迁移到真机,春晚跳舞、半马跑步全是这代,但基本是“蒙眼”运动;

2024之后进入“手眼脑时代”,VLA(Vision-Language-Action)大模型让机器人随时用眼睛看、用大脑理解、用手干活,这才有了今天零售、工厂、药房的多场景落地。

主持人:说到泛化干活,亚马逊仓储里机器人数量已经快赶上人类员工了,这跟我们今天谈的人形机器人有什么本质区别?

王鹤:亚马逊那套是AGV+结构化改造,本质仍是上一代自动化思路:集中大仓、地面贴二维码、货物统一尺寸。中国一二线城市寸土寸金,小药店、小仓库根本做不起这样的改造。而人形机器人直接走进人类环境,用视觉理解千奇百怪的物体,用“手”完成抓取、搬运,这才是下一代方案。

主持人:很多听众来自制造业,他们会问:打螺丝这种“简单”动作,机器人为啥还搞不定?

王鹤:关键看结构化程度。如果螺丝孔位固定、电批垂直往下,传统自动化早就解决了;难的是手持小产品、双手协作、孔位每次不同——这叫非结构化操作。我们从最简单的“抓—放”做起,逐步提升精度,未来再去攻克更复杂的装配。

主持人:您刚提到“逐步”,正好有组数据:2023年中国研发总投入3.3万亿元,77%来自企业;今年上半年,人形机器人行业融资已超60亿元。怎么看资本这么密集地涌进来?

王鹤:AI正从象牙塔走向产业化。文本、图文大模型已经证明:能落地的模型都靠产业界重投入。具身智能还在早期,银河通用成立两年就拿下了最大单笔融资,原因只有一个:我们在真实场景里跑通了商业化闭环——药店、工厂、零售店。

主持人:普通人什么时候能在家里见到这些“钢铁伙伴”?

王鹤:先B后C。我们已和宣武医院、华西二院合作,让机器人给老人量血压、做认知测试,再逐步过渡到夜间查房。工商业先跑1万台,硬件、安全、成本磨到“无感”后,才会真正走进千家万户。乐观估计,10年内会出现家用普及拐点。

主持人:最后一个轻松问题,您手机里用得最多的AI应用是什么?

王鹤:Deepseek和ChatGPT。不过需注意的是,前沿内容模型会“想当然”,但5-10年前的技术点基本都了如指掌。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。