当前位置: 首页 » 资讯 » 科技头条 » 正文

为了让它走两步 我的电脑抽了十几小时皮鞭

IP属地 中国·北京 编辑:陈阳 差评 时间:2026-04-16 11:26:06

不知不觉,2026年已经过去了四分之一了。。。

不知道大伙儿是啥感觉,反正自从开年以来,世超总能刷到各种机器人。今天开幕式上露个脸,明天路演现场走两步,到处刷存在感。

尤其是从春晚那波机器人武术出圈之后,很多人都觉得,这玩意儿的发展速度是不是有点太快了,去年还在转手绢,今年已经能给人类上强度了。。。

不过,我也看到有人说,这些走两步路、跳个舞的机器人其实没啥技术含量,说白了就是个大型遥控玩具。

诶,原来让机器人动起来很容易吗,那岂不是我上我也行?

为了搞清楚这事儿,这回世超干脆借来了一台双足机器人,准备亲自训练点新动作,看看这个类人形机器人,能玩出多少花活儿。

刚一搬进屋,新同事就被好奇的老登们围了个水泄不通。

大伙儿四足的、人形的在办公室里见怪不怪,全身只有两条腿的还是第一次见,纷纷主动列队欢迎。

世超 py 来的这个机器人叫 TRON 1,是目前构型最精简的双足机器人。翻了翻说明书,这家伙每条腿上各有三个关节,对应三个电机。

相比那些动辄几十个关节的人形机器人,这种双足机器人,更适合拿来研究一个最底层的问题:

两条腿,怎么在真实世界里稳定地走。

按理说,我只要把这两条腿上,6 个电机安排明白,就能控制它做出想要的动作。比如电机转得快一点,腿就抬得快一点;角度大一点,腿就抬高一点。

看起来没啥难度对吧,搞清楚基本工作原理,咱先从最基本的走路学起,练个手。

想训练一个机器人在现实里做动作,第一步,得先让它在虚拟环境里动起来。

创建一个 Isaac Gym 仿真环境,在这里,你可以一次性拉出成千上万个一模一样的机器人,让它们同时摔、同时犯错,快速成长,训练效率直线提升。

而有了训练的环境,咱又来到了第二关。让机器人成功走起来的核心,其实是一套合理的奖惩机制。

在这里,世超采用了比较基础的强化学习 PPO 算法。大伙儿可以把这个过程理解成萝卜纸巾真蚌,做好了,及时给奖励,做错了,就得惩罚。

而机器人和人一样,学习,是一个循序渐进的过程。要想学花活儿,得先把走路学明白,稳定不摔倒。未经训练的机器人非常怠惰,只会迅速陷入婴儿般的睡眠。

所以,一套训练程序里,十八个奖励函数,只有三个是给糖吃的:站稳、按给定方向移动、按固定方向移动,其它十五个全负责抽皮鞭。

双腿并拢,罚。脚没着地,罚。头着地了,罚。

训练了一会儿,不走直线,罚。走得太慢,罚。方向错了,罚。

什么,你问奖励给这么少是不是虐待机器人?真不是我们不想给,这么做也是为它好。

奖励给得太多,很容易让机器人钻空子,学不到有用的本事。比如,要是不摔就给奖励,那机器人大概率会避开走路摔倒的风险,原地罚站。

很快,只要两三个小时的训练,机器人顺利地走起来了。

其实直到这里,世超已经通过 TRON 1,完整地体验了一遍机器人走路的强化学习入门级流程。

有一说一,确实不算难。只要大伙儿有点编程基础,摸索摸索,做出点好看的成果还是很快的,还相当有成就感。

如果事情只停在这里,那机器人可能确实是个大玩具。

然而,当世超想开始第二阶段的拷打,搞点新东西的时候,事情就没那么简单了。。。

这一次,我们设计了 3 个新的奖励函数来让它走得更有难度:机器人的腿离地面过近、膝盖弯曲的角度不对、每步走得太短都不行。

有了这些函数,机器人走路的时候腿会抬得更高,走路的姿势会变得完全不一样。

大概四五个小时后,世超给机器人准备的新动作也诞生了。以后它走路得边跳边走,年轻人,有活力一点。

模型准备就绪,模拟世界里一切正常,机器人学得很好。

接下来,只要把这个训练好的模型,通过一根网线,传递到机器人的身上。。。

等等,事情开始不对劲了。

把虚拟环境里的算法移植给现实里的真机器人,才是地狱的开端。

当那套在模拟器里跑得一点没毛病的模型注入真机,你会发现电脑里丝滑的步态,到现实里全变成了水土不服。

真实物理世界里,地面变化的摩擦力、机器人重心变化、传感器的延迟。。。这些微小的变量在几十斤重的铁疙瘩身上会无限放大。

世超试了五六次,它依然脚抬不起来,腿迈不开,时不时原地抽搐。

巨大的声响,甚至还把金毛火锅吓哭了。。。

没招了,咱只好向场外求救。听完逐际动力工程师 Brandon 的解释,我才意识到,这就是具身智能最难的地方 —— 把看似完美的虚拟模型,搬到残酷复杂的现实世界。

往好里说,现在这套模型也许不是完全没戏。

它就像买彩票,你反复跑上成百上千次实验,只要有一次,环境、参数、运气全对上了,机器人也能站起来、踉踉跄跄走两步。

但更常见的情况,是模型本身有问题。这时候,我们得把模型回炉重造,修改奖惩机制继续练习。

甚至存在很大可能,我们再花几十小时搞出来的新东西,还不如老模型效果好。例如你可能设置了抬高腿的新奖励,结果直接导致机器人重心不稳。一个 bug 的修复,往往会引入更多的 bug。

另外,很反直觉的是,即使在模拟环境里做到 100% 好,对真机也不一定是好事。因为它可能早早地过拟合,只在严格的特定环境下才好用。

跑完整个机器人培训流程,世超才发现我们对它有很多误解。即使是一个简单重复的走路动作,一旦要让它在真的机器人上丝滑运行,也绝对不是一朝一夕的事。

而大伙儿平常快看腻了的各种跳舞、导览、巡逻功能,往往需要更多的数据、更复杂的训练手法、面对更变幻莫测的真机反应。

机器人看起来像个大遥控玩具,并不是因为它技术含量低,而是因为真正难的那部分很少被拍出来。

不管是昂贵的数据采集,还是模型一遍又一遍以小时为计的训练调整,亦或是弥合虚拟世界到真实机器人的巨大鸿沟,都需要有经验的工程师来反复实验,反复调试,花费大量金钱和时间,才能保证次次成功,稳定运行。

当然,肯定有差友忍不住问一句:这机器人就两条腿,能干的事这么少,就算真把它做成了,又有什么用?

逐际动力团队是这样向我们解释的,像 TRON 1 这类机器人,一方面能在游乐园里让已经灭绝的恐龙“动起来”,在火车站、机场这种人多的环境去巡逻,在大型设备进不去的危险环境作业,用小小很可爱的优势补位;

但更重要的价值,并不在立刻能干多少活,而是在科研本身。

同样是研究两条腿怎么走,在 TRON 1 这种只有两条腿的机器人上实验,成本更低、迭代更快。一旦这些底层规律被跑通,就能类比迁移到更复杂的人形机器人上,相当于先用小号模型把坑都踩完。

科研离生活很远,但没有科研机器人,它们永远不可能走进生活。

如果把时间拉长一点看,这些机器人的确谈不上有用,但研究过程中留下来的方法、经验、模型和理论依据不会消失,它们会一层层垫在所有后来机器人脚下。

机器人能走到今天,本身就是一条漫长又不容易的技术积累之路。

我们不如换个角度想,人类进化到可以直立行走,至少经过了几百万年。早期想造出一个会走路的机器人,以早稻田大学 WABOT 为例,也是数以年计。而现在,就像世超这样的非专业工程师,只需要不到一天,就能教会一个铁疙瘩稳稳走起来。

从这个意义上说,看似干啥啥不行的机器人,已经超过人了。

所以,趁着这帮铁疙瘩现在还只会点地板 breaking,世超建议大伙儿还是对它们客气点。

毕竟当机器人学啥都只要一天不到的时候,被吓哭的可能就不止是火锅了。

标签: 机器人 模型 走路 世超 两条腿 小时 世界 过程 现实 地面 环境 经验 皮鞭 人形 时候 有点 动作 萝卜 纸巾 活力 基础 人类 风险 电脑 方法 理论依据 动力 金钱 路演 说明书 直线 机制

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。