当前位置: 首页 » 资讯 » 科技头条 » 正文

对话自变量CEO王潜:一个月后,机器人就可以接单进家了

IP属地 中国·北京 编辑:吴婷 凤凰网科技 时间:2026-04-25 14:30:03

摘要:

“我认为马拉松和我们完全是两个领域,我们与做语言模型的公司距离更近”。

科技 出品

作者|赵子坤

编辑|董雨晴

在刚刚过去的机器人马拉松比赛中,机器人晃动着刀锋般的“双足”,跑出了比人类快的速度。

“马拉松的机器人,都是在腿上做文章。硬件在中国从来都是没壁垒的,我们做的,本质是基础模型的事,壁垒要高得多。”自变量CEO王潜在包括科技在内的媒体沟通环节中谈到。

4月21日,刚宣布完成B轮融资的自变量,打出了一个看起来更为“激进”的口号:35天后,新一代机器人入驻真实家庭。

发布会上,一台白色轮式双臂机器人缓缓滑上台,一只机械臂夹着垃圾桶,一只机械臂夹起了王潜演讲途中随手扔下的纸团。

在他的设想里,区别于提前编好程序、遥控操作的“命令式机器人”,这种自主行动的机器人将成为新的“家庭成员”。

“机器人进入家庭,是我们这个时代最难的技术问题之一。”当前机器人的核心瓶颈不在本体,而在智能。在家庭这个环境复杂的“考场”里,没有预设剧本,猫随时跳上桌子,拖鞋永远不在原地,随机的碎片事件机器人无法自主处理。

“现在的机器人硬件已经到位了,双足、灵巧手、力控关节都很好。但大脑没有跟上,只是空有一身漂亮的肌肉而已。”

在王潜看来,当前业内主流的VLA架构是“三个模块(视觉、语言、动作)在传话”,每传一次就丢一次信息,VLA模型只能模仿训练数据中的轨迹,无法真正理解物理世界的规律。

自变量的答案是彻底重写架构:用世界统一模型(WUM)从零训练一个原生大脑,让它真正理解重力、摩擦力和惯性。

自变量宣布,一个月后的“进家”的机器人,将搭载新一代自研具身智能基础模型 WALL-B——自变量将它定义为全球首个基于世界统一模型架构(World Unified Model,WUM) 的具身智能基础模型。

应用方面,自变量与 58 同城合作,将搭载 WALL-AS 模型的机器人送入真实家庭,与保洁阿姨协同作业,实现全球首次机器人进入家庭,并服务人类复杂的家居生活——这可能也是首次机器人在 C 端复杂环境的大规模落地。

“5月份进家时,理论上它应该能处理所有我们让它做的事情。所有在物理上可触及范围内的事情,它都能做。当然,这不代表100%自主完成,必要时还是需要人进行远程兜底监管,以保证安全。”在被问到进家具体能力时,王潜对科技回答道。

“OpenAI领先Google约两年,在机器人领域这个时间窗口会长很多,大概还有三年以上的时间。”王潜判断,即便大厂下场,创业公司仍有机会。

发布会后,从进家落地、技术架构到行业竞争,自变量CEO王潜与CTO王昊接受了科技等媒体的采访,以下是实录精编,经过不更改原意的删改:

谈机器人进家落地:“这是一个20%GDP规模大的市场”

Q: 新一代机器人进入家庭后,是否有设立阶段性目标?比如通过几个月的训练,期望它在哪方面能力有新提升?

王潜: 我们是希望机器人在进入家庭的第一天就能帮我们做大部分家务。当然一开始可能不够完美,但我们希望它能通过更多地操作系统、提升AI能力,尽快变成一个完全独立自主的家庭助手。

Q: 有行业人士认为,机器人必须足够通用才有进家的必要性和市场接受度。您判断现阶段的通用性是否足够?一个能完成家庭大部分活动的机器人的预期时间表是怎样的?

王潜: 是的,5月份进家时,理论上它应该能处理所有我们让它做的事情。所有它在物理上可触及范围内的事情,它都能做。当然,这不代表它100%靠AI自主完成,必要时还是需要人进行远程兜底监管,以保证安全。

王昊: 在家庭场景的探索中,我们发现家庭里没有特别高频的单一需求,但有很多零碎的长尾需求,这些需求组合起来构成了日常生活。

过去,机器人进家找不到用处,是因为从来没有一个机器人能干多件事。当机器人能处理这些琐碎需求,比如摆鞋、叠衣、铲猫砂,它们集合起来就是一个巨大的需求。我们的目标是覆盖好这些长尾任务,让它成为一个全方位的家庭助手。

Q: 5月份进家,是确定机器人能完成预期中超过几件以上的家务能力,这已是一个确定的商业服务,而非实验?

王潜:是的。我们在58到家平台上提供的将是一个付费服务,大家可以在APP上自由下单。它不是预设好的演示,是所有人都可以申请的正式服务。

Q: 公司未来几年有哪些应用落地的目标?比如某个时间点进入多少家庭?

王潜:我们暂时没有特别明确的数量目标,比如三年或五年进入多少家庭。更多是以技术追问的方式来思考。我们希望在2-3年内,实现物理世界的“ChatGPT时刻”,希望物理世界的“Aha moment”是我们第一个做出来的。

Q: 和58同城的合作进家,如果用户下单机器人清扫服务,是否需要公司员工全程陪同或后台操作?

王潜:目前现场不太需要员工实时支持了,就是一个保姆和一个机器人进家。机器人在物理可达范围内做得不错,人在现场主要是处理它物理上无法触及的情况,比如过道太窄。但这不代表环路里完全没人,会有远程接管。当机器人发现事情做不了时,会发信号给远程人员进行接管,类似百度萝卜快跑的模式,解决难点后再交还给AI。

Q: 家庭机器人瞄准的市场规模有多大?

王潜:通用机器人面对的市场不能用单纯的经济数字衡量。如果只看家庭场景,历史上经济学测算显示,家务劳动约占GDP的20%。人们每天花在家务上的时间大约是工作时间的1/4到1/5。所以这是一个非常巨大的市场。

Q: 未来机器人进入家庭,预期价格是怎样的?能否让普通家庭都用得上?

王潜:当机器人广泛进入家庭时,我们一定希望所有家庭都能用得起。价格上会有区隔,就像汽车一样,有基础款也有高端款。但机器人跟端侧设备不一样的是,不是单纯消费品,它是一个生产力设备。就像马斯克说的,机器人和火星是绝配,因为你可以把机器人发射到火星上去。长远看,当机器人推动生产力爆发后,也能把自己的价格压低,能让每个普通家庭都负担得起。

Q: 进入家庭的机器人,哪些场景是需求最多的,有没有一些量化的数据?

王昊: 家庭场景的特点是,在进门之前你无法预设具体任务。进家那一刻起,机器人就要开始自主规划和拆解任务,这与实验室预设任务完全不同。家庭环境的自然复杂性是最高质量的数据来源,这种交互式采集方式,是唯一能获取这种高价值数据的途径。

王潜: 我们不希望机器人是受限的。你可以从功能上分类,比如清洁、做饭、照顾老人宠物,但本质上我们希望机器人能平等地对待所有任务,是一个没有限制的通用智能体。这正是我们追求AGI的核心逻辑。

Q:你们提到机器人进家后是”边干边学”,那它自我迭代的周期是怎样的?

王潜: 我们的模式是,机器人在执行任务的同时就在进行数据回流和在线学习,因此没有一个固定的迭代周期概念,你可以理解为它一直在持续进化。

谈原生模型:“目前业界主流做法都有问题,我们走的是第三条路”

Q:自变量在数据路线上,包括仿真、真机、UMI等多种方式,整体的规划是怎样的?

王昊: 我们的核心是强调数据要来自现实环境。获取途径不止一种,过去主要靠机器人本体操作采集,现在有了可穿戴设备,甚至可以简化为用相机采集纯视频数据。这些数据的信息密度和容量不同。

我们将现实数据分为几层:最底层是纯视频数据,中间层是手持或穿戴设备采集的数据,上一层是机器人本体数据,再往上是交互式数据,即让机器人自主探索并通过人机协作获得数据。从下到上,数据采集难度依次增加,但训练难度不同,数据价值也不同。越容易获取的数据,训练难度可能越大。本质上,要形成一个好的大模型,你需要找到好方法对数据进行有效压缩。这离不开模型和数据闭环的整体策略。

Q: 行业认为1万条数据是实现零样本泛化的一个节点,目前发布时已收集了多少数据?是否已达到泛化状态?进入家庭后数据收集的核心目标是什么?

王昊:在一个家庭里任务是多样的,我们不应为机器人预设采集多少次才能学会。我们的做法是,先让搭载了前期训练的模型去尝试,它肯定能做一部分,我们把那些做不好的地方通过人机协作补上。

在家庭中采集数据,我们不以“条数”衡量,而是以任务丰富度和任务的平均长度、复杂性来衡量其价值。我们的数据回流方式不是离线式的“先采集-再训练-再部署”,而是通过大规模预训练让模型具备零样本泛化基础后,直接进家进行在线学习。机器人先自己做,做不了的通过人机协作解决,数据实时回流,模型即时进化。

Q: 全国成立了很多具身智能数据联盟。自变量似乎有自己的数据体系,如何看待这种联盟趋势?

王潜: 我们对任何合作都持非常开放的态度。但行业尚处早期,数据采集厂对各公司的意义可能不同。我们对数据质量要求较高,在数据闭环里的哲学和运营方式可能与别人不完全一样,所以倾向于建设自己的数据体系。

Q: 之前开源的模型解决灾难性遗忘问题,今天你们也强调了减少数据损耗和丢失。这些做法的初心是什么?

王潜:最关键的方法论是“减少人为干预”。人为干预越少,模型表现越好。历史上所有模型都走向了减少人为手工设计,从分层次模型到端到端,从分离式动捕到远程动捕,核心是走向一个完全统一的大模型架构。

目前业界主流做法是继承已有的VLM或视频生成模型,但我们认为这两种方式都有问题,因为它们并非为物理交互任务而生。我们走的是第三条技术路线:从头开始训练一个世界统一模型,让它能理解并解决物理世界的所有问题。这是我们方法论上最重要的一点。

王昊: 从资源维度看,23年做端到端模型时缺数据,所以需要继承预训练模型。现在我们的数据规模已达到可以从头训练原生模型的程度,不再受限于以前的模型结构。

Q: 今天提到的机器人能进家做很多活、泛化性强,这在技术上非常突破。达成这种泛化能力,技术架构上有什么更新?

王昊:最核心的还是数据。数据规模和质量到了量级,自然会推动模型架构向更优方向发展。零样本泛化是数据规模突破某个临界点后自然出现的结果。我们在当前阶段,数据是核心驱动力。所以我们把它推到家庭里去,不管是基于公众需求,也是我们在商业上探索的一些需要。

Q: 解决机器人泛化能力,除了数据还有哪些难点需要突破?

王潜: 模型架构本身很重要。我们必须做原生模型,从头训练,以捕捉物理世界的复杂规律。继承已有模型,会在语义理解、物理规律理解上存在问题。

物理世界是高度复杂的,这跟做自动驾驶、语言模型或者是多模态时没遇到的情况。为什么跑马拉松的机器人没有这个挑战,因为它主要抵抗的是一个恒定的重力场,它脚底下踩的那个地方踩歪了没有什么太大的影响,但是我们手上做这个操作,比如说歪了0.1毫米可能整个就失败掉了。

王昊:物理世界模型的挑战是独特的。我们需要处理动态视觉、2D到3D的推理,以及物理交互中的复杂随机性,这些在数字世界模型中从未遇到过。

Q: 如何看待行业当前在泛化性方面的发展水平,后面在样本泛化方面有何规划?

王昊:当前阶段,如果期望不高,机器人会带来惊喜;但如果以人的标准衡量,则会失望。我们的泛化性体现在,同一类任务在不同家庭环境中都能应对,尽管物理难度各异。行业整体都能观察到零样本泛化的现象,只是程度不同。希望大家给行业一些耐心,我们的发展速度可能超出直觉。

王潜: 真正意义上的大泛化突破,可能就在非常近的未来。

Q: 自变量自有数据采集工厂的建设进度和资本开支情况如何?

王潜: 我们自建的数据工厂是国内最早的,从2024年初开始,完全是用自有资金建设。它现在是全国乃至世界规模最大的工厂之一,这确实是资本开支的重要部分。

Q: 自有工厂采集的数据和外部购买的数据配比如何?不同类型数据在提升泛化能力时的作用有何不同?

王潜:我们平等对待所有来源的数据,不会预先设定一个固定配比来区分对待。

王昊: 当你开始精细调配比时,说明数据已经相对充裕。不同类型数据的价值取决于其包含的物理信息密度。纯视频数据采集容易,但信息密度低,有物理极限。高信息密度的本体数据采集难、比例小。混合数据时,我们的大原则是减少人为干预,让模型自己去挖掘不同数据源的信息。

谈行业竞争:“比起跑马拉松的硬件,我们技术壁垒够高,领先窗口期还有三年”

Q: 机器人马拉松显示了硬件门槛在降低,大厂系统性能力很强,领先窗口期可能只有几个月。在“大脑”能力没有外显评测标准的情况下,如何保证大脑能力的领先性,领先窗口会有多久?

王潜:首先,我认为马拉松和我们完全是两个领域,我们与做语言模型的公司距离更近。领先性上,数据和软硬一体能力是关键。建立一个从数据收集、清洗、训练到评测的完整配套工程体系是最难的部分,这构成了长久竞争力。例如OpenAI当年领先Google约两年,我认为在机器人领域这个时间窗口会更长,可能超过三年。

Q: 具身智能赛道的壁垒是什么,哪些是真正的门槛,哪些只是阶段性领先?

王潜:跑马拉松更多是硬件的事,硬件在中国从来都是没有壁垒的,今天做出来一个特别好的硬件,明天供应链全都被整出来了,后天所有人都可以做。我们做的本质是技术模型,壁垒要高得多。因为机器人是集成了硬件、软件、智能、产品和生活方式的完整链路,技术本身的壁垒可能就有三年甚至更长时间。它是一个系统性壁垒,不只在单一维度。

Q:如何看待大厂全面进入具身智能领域带来的竞争?

王潜:我们身后站着几乎所有在AI领域有布局的大厂(小米、阿里等)。他们投资我们,也恰恰说明了创业公司的独特优势。市场足够大,创业公司在软硬一体的能力、技术本身的壁垒上具有优势。资源不构成壁垒,技术才是。大模型历史上,大厂投入巨量资源但追赶OpenAI依然用了近两年时间。

为什么大家会认为在大模型的时代技术门槛变低了,因为有蒸馏。蒸馏做得太多了,以至于忘了什么是真正的技术差距了,但机器人没法蒸馏,技术壁垒会更高。

Q: 自变量拿到了四家大厂的投资,打动投资人的核心是什么?

王潜:现在我们看到的所有物体没有办法依靠机器生产出来。机器制造机器,永远需要人参与,于是指数发展变成了线性发展。等到具身成熟时,理论上生产力也会是指数级发展。那现在对整个行业来说,资本热度是欠缺,甚至可以说是过冷的。我们的股东是中国乃至全球做AI模型最好的公司,技术判断力是毋庸置疑的,看中的也是我们的技术领先性,对我们也没有短期回报要求。

标签: 机器人 数据 模型 家庭 王潜 物理 世界 技术 进家 能力 硬件 王昊 公司 核心 大厂 架构 智能 行业 领先 信息 时间 规模 马拉松 基础 任务 样本 科技 凤凰网 全球 语言 人为 无法

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。