
![]()
“汽车、Robotaxi、机器人、飞行汽车,将会为小鹏带来更多「石油」。”
作者丨韦艳娇
编辑丨田哲
那些天马行空的科技畅想,都正在从梦想变成现实。
11月5日,第七届小鹏科技日如期进行,活动地在小鹏新搬迁的总部园区。从早期蜗居广州城中村的创业团队,到如今拥有自建科技园区,办公地点的变化背后,也藏着小鹏成立11周年后从站稳到跑向世界的愿景。
小鹏汽车正变得更像一家AI公司。
它将业务聚焦在四个方向:智能汽车、机器人、Robotaxi与飞行汽车。这四个板块并非简单并列,而是以智能驾驶为核心的不同演化路径。汽车是商业化起点,Robotaxi是算法的城市化延伸,机器人与飞行汽车则是具身智能和空间智能的外溢结果。
其中,小鹏汽车推出了首个量产物理世界大模型即第二代VLA,这也是小鹏在物理AI领域探索的关键技术突破。在何小鹏看来,当AI将进一步进化,AI将不再仅停留于应答与生成,而是直接参与、引导甚至重塑物理世界的运行,AI的能力要从数字世界延伸至物理世界。
相较于传统的行业标准版的VLA,小鹏二代VLA去掉了语言这一中间转译环节。减少了语言转译的延迟后,视觉信号直达动作指令,并且小鹏二代VLA使用大量的长尾视频数据,大模型从学习模仿变成更聪明的理解。
二代VLA带来的机器逐步理解、交互和改变世界的能力,也是小鹏串联起汽车、机器人、飞行汽车等多元业务线的信心来源,因为它们所面对的都是同一个物理世界,所需要解决也都是基于物理世界信息进行决策。
据小鹏汽车联合创始人、执行董事、董事长兼CEO何小鹏透露,第二代VLA是在濒临放弃研发的绝望中突然实现的。
2024年,小鹏内部同时研发两代VLA,却一直没有取得突破,研发团队也逐渐失去信心,甚至有些高管逃避参与报告会。但是在不久后的一天,二代VLA突然呈现出惊喜的理解能力。小鹏内部认为,这种变化源于技术积累触及某个临界点后的自然爆发,没有办法确认是什么量变触发了这种质变。
何小鹏表示,二代VLA所展现出的物理AI能力只是一个开始。真正的难题不在于模型的涌现,而在于能否更快实现稳定量产。那意味着不仅要让“长板”更长,还要让中板和短板被一并补齐。量产,是小鹏接下来必须跨过的门槛。
在他看来,物理AI将成为未来科技公司新的竞争。在物理AI时代,数据是新的石油,谁能先获得大量高质量数据并形成“数据-体验-更多数据”的闭环,谁就能取得优势。而这一循环的起点与关键环节,都取决于企业在硬件和工程化能力上的深度投入,最终构成软硬件协同演进的闭环。
在这种思考下,小鹏将硬件业务从汽车延伸至机器人、飞行汽车、Robotaxi等板块,或许会带来更多数据,形成更大的软硬件循环能力。
小鹏推出Robotaxi业务,则更多基于对未来出行的思考。何小鹏坚信,未来的4个轮子交通一定是“共享”和“私享”的组合。
与此同时,第二代VLA大模型的成熟,也为小鹏切入这一市场提供了优势。二代VLA已具备摆脱高精地图依赖的能力,可直接支持前装量产方案,而非事后改造。同时,通过与量产车型共享研发体系,小鹏得以在保证性能的前提下分摊成本压力,将单车成本控制在更具经济性的区间。
在趋势和条件都有利的逻辑下,小鹏基于现有的汽车业务去布局Robotaxi也非常合理。
何小鹏也明确,小鹏汽车的定位将切换为“面向全球的具身智能企业”,而不再只是一家中国车企。
除了更多业务面向更大市场的动作外,小鹏正将其部分核心技术以开源形式开放。其第二代VLA大模型面向全球商业伙伴开源,大众汽车成为该技术的首发客户,后续将推动第二代小鹏 VLA 和图灵芯片,在大众品牌车型上落地。
在商业化落地规划中,何小鹏表示科技日上公布的多项技术将在2026年进入爆发周期:第二代 VLA 端到端辅助驾驶、小路 NGP、无需导航漫游的 Super LCC、第二代人形机器人 IRON、前装量产 Robotaxi。
在科技日后,小鹏被称为是最像特斯拉的企业,小鹏汽车的市值回到220亿美元,特斯拉的市值约为1.5万亿美元。
二者之间仍然有着巨大的差距,但从另一个角度看,小鹏在机器人、自动驾驶领域开放SDK,挖掘物理AI的数据石油,也在助其抢占物理AI高地。
在物理AI这条路径上,小鹏有了更广阔的向上空间。
围绕物理AI、机器人、业务发展等内容,雷峰网等与小鹏汽车董事长何小鹏、小鹏汽车副董事长兼联席总裁顾宏地、小鹏汽车自动驾驶中心组织负责人刘先明、小鹏汽车机器人副总裁及AI技术委员会负责人米良川进行了多场交流。
以下是编辑后的内容节选:
Q:小鹏为什么坚持机器人“高度拟人化”?如果做高度拟人化,对应非常高的投入成本,怎么做权衡和取舍?
何小鹏:未来高等级的机器人有各种各样的形态,有像人的,也有不像人的。
更拟人的机器人,有三大好处:第一,今天机器人想做到聪明,不能用规则,要用AI来驱动,只有从人类世界才可以学到最多的数据。
第二,我们的家庭、工厂,实际上大部分都是为了方便人类去使用而设计、建造、运营的,所以如果它越像人,越容易适应这个世界。
第三,从商业角度看,像人更容易让大家有亲和感,更有购买欲。卖得多带来规模效应,成本更低,成本更低就可以卖得更多,会形成正向循环。
Q:为什么小鹏Robotaxi首个全球生态合作伙伴选择了高德?第二个问题,明年要发布三款无人驾驶出租车,这三款车的差异在哪儿?
何小鹏:高德是中国非常大的出行生态平台,小鹏跟很多Robotaxi公司不一样,无论是在中国还是全球,都不追求自己的全力运营。希望小鹏做Robotaxi就像一个“工具箱”一样,有车、有软件、有SDK接口,开放出来给合作伙伴,他拿着“工具箱”就能做本地Robotaxi的运营。
高德是一个出行运营商,所以它来运营,我们提供“工具箱”,这是符合两家战略定位的。三款Robotaxi是不同价位的,提供5、6、7座,满足不同用户的需求。
Q:许多中国大公司常被拿来和特斯拉比较,但估值却远低于特斯拉。在未来,我们应当如何让资本市场更好地提升小鹏汽车的估值?
顾宏地:我们目前在追求的,其实更多的是科技和产品,确实其中有些和特斯拉比较类似。都聚焦于物理AI,同时聚焦打造智能汽车、自动驾驶、人形机器人等等。我们在部分领域甚至比特斯拉开始得更早,比如飞行汽车,人形机器人。某种程度上,我们是聚焦于使用技术和AI去打造更多物理世界的场景。
关于资本市场的估值,小鹏和特斯拉的现状是非常不一样的,其中有很多变量。
首先,中国和美国不同,在市场、科技公司、资本市场,有一些情况有所不同。第二,特斯拉是有一些优势的,尤其是他们在电动车领域开启得更早,并且媒体曝光度也非常高。
特斯拉有不同的产品,电车只是一部分,同时他们也有AI模型、FSD,以及很多生态企业,种种加起来可以组成他们的估值,小鹏也在不断推出各种产品及技术,希望小鹏在未来可以获得一样的国际声望。
Q:小鹏的新一代机器人与汽车在零部件上的复用比例达到多少?
何小鹏:我没有精确的答案,但是很多工艺是一样的,比如说感知、域控制器,AI 软件有70%是一样的,但机器人的关节、皮肤在汽车零部件上是没有的。
Q:小鹏希望在物理AI业务上,与汽车营收的占比是如何的?
何小鹏:未来,我对机器人的看法可能更乐观。汽车在全球是10万亿美金的市场,一年生产9000万台车;而机器人是20万亿美金的市场。当然它不会这么快(实现),可能需要10~20年的时间,在这个时候可能会有2亿或者更多的人形机器人。
我没有想过10年以后,一年能卖多少机器人,但肯定会超过汽车,超过100万,这是从10年的角度来看。从短期的角度来看,机器人的量产还要过很多很多关。
Q:很多Robotaxi公司还没有取得盈利,请问你们在推进Robotaxi计划时怎么确保有盈利?
何小鹏:小鹏可能是一个不一样的Robotaxi公司,因为我们做了前装的车,做了量产的车。小鹏Robotaxi、同时还有一个Robo(私人L4),可以To C销售,可以大幅度分摊BOM和研发费用。
另外,基于二代VLA,小鹏Robotaxi不需要高精地图,不需要扫街,不需要激光雷达,更像一个物理世界的人去思考,所以更广度、更泛化,不需要部署费用。小鹏汽车在Robotaxi领域,研发费和BOM比其他公司天然拥有百分之几十,甚至几倍的优势。
Q:小鹏把VLA的“L”去掉了,是真的消除了吗?如果真的消除了,你们现在还叫VLA,不应该是叫VA吗?
何小鹏:我们说V+L,转译环节没有变成人类的语言跟格式,而是变成了一个物理世界的新语言,所以它不是人类可见、可认知的语言,效率很好,更丰富。
Q:发布会现场没有提到L3,直接面向L4,L3产品的进展是不是也卡在这个法律法规上?
何小鹏:我认为,将来一个是L2,一个是L4,没有L3,跳跃了L3。
Q:小鹏把固态电池装在人形机器人,这款固态电池是来自外部供应商吗?
何小鹏:我们不研发电芯,都用合作伙伴的,我们固态电池的电芯来自于两家,一家来自海外,一家来自中国。
Q:为什么小鹏在这个时候启动Robotaxi?目前有什么样的策略?
何小鹏:因为我们很多AI技术的开发、目前算力的提升,已经能够很好地去催生Robotaxi的机遇,和半年前、两年前完全不一样。
此外我们也看到,L4智驾越来越成熟。在过去6个月到一年当中,很多公司以及行业合作都聚焦于L4级自动驾驶。当我们去转向L4、转向Robotaxi的时候,目前的情况和半年甚至一年前是完全不一样的。
对于小鹏来说,也想要提供更加经济的解决方案,来更好地帮助客户享受到L4的便利性。目前,在Robotaxi领域,我们和很多生态合作伙伴合作。
Q:小鹏就展出了一个女性的人形机器人,为什么会是女性?这方面是出于哪些考量?
何小鹏:人形机器人是男是女不重要,就像你可以买黑颜色的车,也可以买白颜色的车。在第一代机器人里面,我希望完成一个男性、一个女性的机器人,我认为都是需要的。
Q:特斯拉和小鹏是全球、全世界业务重合度最高的两家公司,如果用一个词概括,小鹏和特斯拉最不同的地方在哪里?
顾宏地:特斯拉和小鹏的对比中,有两个特别的点。第一是我们相同的地方,我们都注重规模,做事时不希望只针对一个很小的细分市场,而是希望达到量产和规模化,这是我们相同的地方。第二是我们不同的地方,小鹏是一个非常开放的生态。
更加开放的生态系统和更加封闭的系统,都有自己的优劣势,比如封闭的可能更容易去获得经济效益,开放的可能更容易和合作伙伴合作。
目前小鹏更加开放,因为我们是一个年轻的公司,我们有自己的局限性,没有资源去做很多事情。我们在机器人、在自动驾驶车上开放SDK,可以让我们和更多人合作实现很多技术,这样也可以更好地去帮助我们的产品和技术成熟。
Q:发布会提到了机器人的一些场景,比如说拧螺丝、做家务,这些可能都不是立刻会实现的场景,在你们看来,如果实现这些场景可能需要多少年?
何小鹏:在人形机器人上,不同的公司会选择不同的商业化方案,在我们公司有一些规则,让机器人不要有太多用手的操作,以及我们也想在机器人的智慧或者是智力方面,循序渐进地发展。
目前我们还是在商业化早期阶段,可能在3~5年之内可以实现你刚刚提到的场景,可以做更多不同的事情。但如果我们想要机器人在家里去照顾老人、照顾小孩,那可能需要更久的时间,甚至可能需要5~10年。有些人说,5~10年之后,人类可能在很多场景下会被机器人取代,但在我看来,这是不可能实现的。
Q:业务线上,包括机器人、低空飞行器乃至Robotaxi,小鹏是如何看待它的国际化市场潜力?
何小鹏:小鹏的目标是,接下来十年有一半产品在中国以外销售。所有产品线和大部分的产品,我们都会考虑如何全球化。实际上,有部分的产品比如飞行汽车在全球的使用场景,可能比中国还多一点、还快一点。
Q:在智驾方面,小鹏在国外XNGP有没有一些规划?
何小鹏:在海外市场方面,小鹏也在积极推进XNGP的落地进程。目前,公司已对多个国家和地区进行了前期考察,其中部分市场的法律法规已允许部署更高阶的智能驾驶功能,例如高速NGP等。
预计明年将在欧洲率先实现相关功能的落地。同时,公司也在持续跟进香港及东南亚市场的政策进展。需要强调的是,海外XNGP的落地不仅取决于技术成熟度,也与各地的法律法规密切相关,小鹏正在与当地政府及监管机构保持沟通,以推动技术合规化应用。
Q:奥地利麦格纳工厂的生产情况,明年预期或者计划的年产量?未来,是否会去海外更多地方设厂?
顾宏地:今年8月份,奥地利工厂正式开始投产,今年的产能规模大概是几千到大几千辆,明年我觉得是几万辆的规模。
在其他地方建设本地化工厂,我觉得是绝对需要的。一个希望达到全球领先的企业,没有一家是只靠出口能达到的,一定要有当地的布局——生产、研发、销售服务、品牌建设,这些都是我们必须要做的。所以我认为将来在主要的销售地区,我们都会有本地化生产和本地化运营的能力。
Q:物理AI有哪些难点?
刘先明:难点在于模型的做法。模型是通过语言建模做离散化token(字符单位),然后经过一个架构,最终输出。
Q:这套技术背后的核心原理是什么?
刘先明:就是把大模型、大算力、大数据堆到一块,模型逻辑非常简单,背后的原理也很简单,没有什么复杂的故事。但想把它做好难度很大,非常大的数据要一口气读进来,还要在千卡、万卡级别训练得非常稳定保证不崩掉。
Q:无数据标注具体能带来什么商业优势?
刘先明:举个例子,我要去欧洲等海外市场、去一个新的地方落地当地的Robotaxi,其实不需要数据标注,只要这个地方有小鹏的车可以采集数据,就可以把这件事搞定。不需要再定向采集很多数据,不需要雇很多人去标注数据,成本会下降很多。
Q:小鹏的数据为什么可以做到无需标注?你们是如何通过infra采集到大量长尾数据的?
刘先明:我们最大的优势就在数据。采集长尾数据有两个方面:一是车端的infra,我们做了很重要的工作——识别哪些数据是要的,哪些是不要的。一辆车平均每天开1.7个小时,能遇到很多好驾驶场景和极限场景,只要有办法识别出来就可以。二是云端有比较大的数据闭环,也在调优数据质量、分布,避免同一场景下太多重复数据。
Q:你们如何重新思考自动驾驶的本质?
刘先明:我们退回去想,自动驾驶本质上它是一个物理AI的问题,你要尝试去理解这个世界,为它做三维建模,然后推演什么事情要发生、做预测,再根据这些做出最安全、最符合人类意识的一种选择。这就是物理AI的本质。
自动驾驶本身就是物理AI或Robotaxi里面最简单的一种问题,它只有两个自由度:向前的加速度以及方向盘的转角,相比于正常的机器人来说自由度小很多,数据空间小,数据也更容易获取。所以物理AI的第一件事就是去做自动驾驶。
Q:为什么扔掉语言?
刘先明:这几年AI发展最大的原动力来自于scaling和data scaling,即不停地用更大规模的数据来训练,我们在语言模型看到了非常好的效果。
物理模型也有同样的问题:如果想要更大规模地使用数据,一定要拆掉所有的separation(模块界限),让它变成一种自监督的模式,不需要人工标注。只要有语言存在,就一定涉及到人工的筛选或标注,于是我把它拆掉,让它变成一种非常极致的数据驱动模式。
Q:现有的VLA架构存在什么问题?
刘先明:很多VLA架构基本都是图像进来,通过一个大语言模型最终输出一Meta action(高级抽象的动作指令),Meta action一般是文字,然后再通过文字的方式处理后输出。这种方式最大的好处是你有很多开源模型可以用,可以直接拿开源的NLP模型来做推理。
但它带来的问题是,你引入了中间一个离散化的语言输出,成为了瓶颈,这样会让数据使用的规模受到限制。一个系统没有任何中间瓶颈,才可能大规模地做起来。
Q:物理世界交互的本质是什么?
刘先明:物理世界交互的本质其实是直接输出控制信号。为什么这种基于端到端的视频输入、动作输出的大模型能工作?因为当人类做任何动作时,需要经历几个过程:先要理解这个场景的3D是怎么构建的,然后根据过去的历史信息做出对未来的判断,最后根据自己的指令做出最终行动。
如果我最终的输出信号直接是行为的话,那它其实包含了重建、理解、生成和最后推进的所有过程。只要用更大规模的数据、更大的模型把这个事做下来,理论上就可以解决这个问题。
Q:从模型到量产,部署方面面临什么挑战?
刘先明:这只是一个demo、一个模型。从模型到最终量产涉及部署问题。除了传统剪枝量化方法外,更重要的是要把它放在端上、放在芯片上,所以需要低延时、高帧率、本地化的部署方案。我们做了从模型到软件到编译器到硬件的联合优化和协同设计。
Q:你们选择的是世界模型还是VLA路径?
刘先明:一直有人拿这事问我们选的是哪条路径。其实本质上这两个没什么太多区别,都是一种极致的端到端系统。我们更多还是要回归基础本质,去解决基础本身的问题。
Q:"涌现"这个概念在机器人领域怎么体现?
米良川:古语讲"量变引起质变"。我们去年发布之后,采用了最艰难的生成式方式去做控制器。从去年10月份一直到今年3月份都在迭代优化。在这个过程中整个团队包括我自己都经常,持续优化数据、优化各种东西,但总看不到质变。3月26号那天晚上,团队测试倒着走的时候,在监控器视频里看发现倒着走好像有点意思,那一天就是我们控制器的拐点。
到底哪个优化带来这个变化,说不清楚,坚持以后突然的飞跃。
Q:机器人展示的跳舞和猫步行走,背后是什么技术?
米良川:大家看到的猫步行走,用的是我们第三代控制器;刚才大家看到的太极,实际上是第四代。
Q:能介绍一下控制器的代际演进吗?
米良川:最开始是model base,大概在2023年左右使用,但实际上我们在2024年就已经把它抛弃了。我们也支持MPCC(模型预测控制),这是业界用得比较多的技术路线。我们第三代选择了一个比较难的路,就是真人模拟——你们看到的猫步也好,自然行走也好,它的步态和风格实际上是嵌在控制模型里面的。它迈步子本身不是轨迹跟随或姿态跟随,而是生成式的。比如说猫步的那个姿态,怎么走都是猫步,包括左拐右拐。
Q:你们为何选择导览、导购、接待这类场景作为切入点?
米良川:我们判断以机器人当前的能力状态,在这些场景能够产生有效的价值。同时在实际场景中一定会发现新问题,只有在这种"知行合一"的实践过程中,才可能真正促进能力提升。当能力提升到一定程度,自然就会发现新的应用。
Q:您提到现在的运动完全是生成式的,是否可以理解为机器人自主上下台,背后已经没有遥控器,已经有一个激活的大模型在工作?
米良川:机器人现在的控制原理,包括控制器,是整体支持的。人要操作它,基本上还是要告诉它方向和速度,它只需要这两个东西。
方向和速度可以来自于上层的模型生成,比如我们的导航模型就是方向和它直接对接的。如果是遥控,实际上就是一个人在摇杆操作;如果是既定的编排轨迹,也是这样的方式。
Q:机器人量产时不得不考虑成本问题,这一代相比上一代成本有什么变化?
米良川:成本问题分成两部分,一部分是我们能做的,一部分是需要依托整个行业的。
我们机器人的所有螺丝基本都是自研。这给了我们迭代的效率,也给了我们技术降本的机会。但另外一部分,最有效的降本还是等到产业比较成熟,供应链能够共享沉淀下来。
Q:小鹏机器人与一些机器人公司有没有合作关系?
米良川:我们也在努力希望跟更多同行合作,但当前阶段还是以自研为主。我们的战略合作伙伴更多是在一些硬件上,包括一些局部技术上进行合作。
本文作者长期关注小鹏汽车动态,感兴趣的行业人士欢迎添加作者微信(XY8899672)交流。





京公网安备 11011402013531号