![]()
车东西(公众号:chedongxi)
作者 | 郭月
编辑 | 志豪
车东西6月4日消息,就在今天,被誉为“学术界奥斯卡”的全球计算机视觉顶级会议CVPR 2026在美国丹佛开幕,小鹏集团通用智能中心负责人刘先明首次展示小鹏世界模型技术图谱。
![]()
▲小鹏集团通用智能中心负责人刘先明在CVPR发表演讲
在CVPR现场,刘先明表示,小鹏集团正在研发具备主动思考、可控生成和长时序推演能力的世界模型。
世界模型与第二代VLA不是互相替代或互相竞争的关系,而是通过不同训练信号共同提升模型对物理世界的理解能力和在物理世界的行动能力。
它们本质上在做同一件事:通过不断放大模型规模、数据规模和训练目标的复杂度,训练足够强大的物理世界基座模型。
刘先明介绍,小鹏物理世界基座模型,是第二代VLA,也是世界模型。
在小鹏的基座模型架构中,第二代VLA主要从人类驾驶行为中学习,将视频流、指令与动作输出进行统一建模,掌握在复杂交通环境中合理行动的能力。
世界模型则通过对未来状态和场景演化的预测,学习物理世界的运行规律,并支持可控生成、长时序推演和因果推理。前者让模型学习“如何行动”,后者让模型理解“行动之后世界会如何变化”。
二者结合,最终目标是构建能够深度理解真实世界并在其中安全行动的物理AI基座模型。
刘先明还强调了他此前的判断,只有能做基座模型的公司,才有可能真的做到L4,自动驾驶只是小鹏基座模型落地的第一步,未来,基模还将应用到机器人、飞行汽车等更多具身载体。
一、世界模型与第二代VLA结合 打造物理世界基座模型
作为AI领域最有影响力的顶会,CVPR历来都是AI研究的风向标,今年大会首次开设“具身智能基座模型部署研讨会”,邀请特斯拉AI 软件副总裁Ashok Elluswamy、小鹏集团通用智能中心负责人刘先明等分享各自团队的研究成果。
![]()
▲小鹏特斯拉英伟达高管同框
“走VLA路线还是世界模型路线?”对于这个争论不休的技术议题,刘先明在CVPR现场做出了回答:小鹏物理世界基座模型,是第二代VLA,也是世界模型,本质上都是在训练足够强大的物理世界基座模型。
![]()
▲小鹏物理世界基座模型技术图谱
人类动作包含丰富的高层语义,隐性地编码了感知、推理、意图、风险判断、社交互动以及对物理世界的理解;只是这类监督信号在时间上相对稀疏。它通常只能监督最终的行为结果,而难以覆盖促成这一行为过程中每一次潜在的物理状态转移。
世界模型则是从世界本身中学习的。它不只是预测下一步动作,还可以预测未来状态、未来观测,或者潜在空间中的未来表征。
相比之下,它所获得的监督信号要密集得多:每一帧画面、每一次运动、每一次交互都可以成为训练信号。
世界模型借鉴了大语言模型中“下一个Token预测”的范式,通过在海量未标注视频上进行下一帧或下一状态的密集预测,逐步学会物理世界的动力学与因果结构。
通过这种融合架构,小鹏成功将稀疏的人类意图与密集的物理预测相结合,使得模型不仅在学习“人类驾驶员会怎么做”,更在深度理解“物理世界接下来会发生什么”。
这种双重目标的并行演进,确保了系统在复杂环境下的可控性与安全性,也为自动驾驶系统赋予了更深层次的物理感知与逻辑推理能力。
二、世界模型的三重能力:主动思考、可控生成和长时序推演
刘先明认为,一个优秀的世界模型必须具备三大能力:主动思考、可控生成和长时序推演,这是智能的体现,也是世界模型能在自动驾驶领域应用的前提条件。
事实上,小鹏研发团队近期发表了一系列与世界模型相关的学术论文,围绕这几个核心能力拆解小鹏世界模型的研究方法。
《X-World: Controllable Ego-Centric Multi-Camera World Models for Scalable End-to-End Driving 》介绍了X-World,基于视频扩散生成技术构建的可控多视角生成式世界模型,能在给定动作条件下生成符合物理约束的未来视频,同时在持续生成过程中保持良好的可控性与稳定性。X-World现已投入到闭环仿真测试、在线强化学习、数据生成等研发环节。
《X-Foresight: A Joint Vision-Action Causal Forecasting Network via Predictive World Modeling》介绍了X-Foresight,一套基于预测式世界模型的视觉-动作因果预测网络,X-Foresight在架构上与VLA融为一体,在统一的token空间内联合预测未来的多视角画面与自车动作,为VLA的控车决策提供了核心支撑。X-Foresight的预测式决策逻辑,倒逼模型“理解世界”,掌握车辆、行人运动规律与场景因果链条。
此外,小鹏研发团队还在《X-Cache: Cross-Chunk Block Caching for Few-Step Autoregressive World Models Inference》中提出了“世界模型加速器”X-Cache,一个面向少步自回归世界模型的跨段块级缓存,能在基本不牺牲画质的前提下,减少约七成的重复计算,对世界模型的去噪主干实现最高约2.7倍的推理加速。
刘先明透露,近期还将发表名为“X-mind”的论文,解析模型如何“主动思考”,并可视化地呈现驾驶决策背后的中间推理过程。可解释性对于自动驾驶的软件性能调试、用户信任建立以及模型快速迭代都至关重要。
![]()
▲刘先明在X平台上发文介绍世界模型
三、规模法则持续生效 基模将应用到更多具身载体
去年CVPR,刘先明的演讲题目是《通过大规模基础模型实现自动驾驶的规模化》,他明确表示,小鹏研发团队验证了规模法则(Scaling Law)在自动驾驶VLA模型上的持续生效。
做AI,没有那么多“炸裂”和“震惊”瞬间,更多是持之以恒践行规模法则这样“简单的道理”,不断挖掘技术红利。
目前,小鹏第二代VLA模型拥有数十亿参数量,使用了上亿的视频片段作为训练数据,每版模型的训练量超过4万亿Token。
小鹏集团此前透露,研发团队平均每天能够迭代数版模型,高频节奏的背后是其强大的AI基础设施能力。
小鹏是国内最早建成万卡以上规模智算集群的企业,在截至今年3月的一年间,小鹏集群的单GPU训练效率提升了1010%、单任务训练效率提升了4360%,GPU硬件利用率从40%提升到了90%,达到头部AI公司的标准。
另一方面,小鹏通过对芯片、编译器、模型的软硬件联合开发,小鹏大幅提升了车端芯片有效算力,将车端模型推理速度提升了12倍。
![]()
▲小鹏车端模型推理速度提升了12倍
刘先明展示了三组芯片&模型组合的对比数据:使用开源模型和通用芯片,计算利用率为22.8%、推理时延800毫秒;使用开源模型和小鹏自研的图灵芯片,模型计算利用率为35.1%、推理时延300毫秒;使用自研的第二代VLA模型和自研图灵芯片后,计算利用率大幅提升到82.5%、时延压缩至80毫秒。
据悉,自动驾驶只是小鹏基座模型落地的第一步,未来,基模还将应用到机器人、飞行汽车等更多具身载体。小鹏人形机器人IRON面向量产版本的软硬件研发进展顺利,即将进入软硬件合围阶段。
刘先明不止一次表示,只有能做基座模型的公司,才有可能真的做到L4,并进一步赋能机器人、飞行汽车等多种具身载体。而基座模型,本身就需要软-硬、端-云、AI研发-先进制造等全栈技术的托举。
结语:小鹏为物理AI铺下基石
当行业仍在争论“VLA”与“世界模型”谁才是自动驾驶的终局方案时,小鹏给出的回答是——两者本为一体。
在CVPR 2026上,小鹏首次完整呈现了物理世界基座模型的技术图谱:第二代VLA让模型学会“像人一样行动”,世界模型则让它理解“行动之后世界会怎样变化”。
小鹏将二者能力融合,不只是带来自动驾驶算法的进化,更创造了一套可供机器人、飞行汽车等任意具身载体复用的通用智能范式,打造了一个可以持续学习、推理和进化的“大脑”,为物理AI 时代的到来铺下基石。





京公网安备 11011402013531号