当前位置: 首页 » 资讯 » 科技头条 » 正文

小鹏加速冲向L4终局:对VLA架构「动刀」成关键一环

IP属地 中国·北京 机器之心Pro 时间:2026-03-06 22:21:57



编辑|泽南、杜伟

两个月前的 CES 上,黄仁勋开源了英伟达的首个 VLA(视觉 - 语言 - 动作)模型,并高调宣称物理 AI 的「ChatGPT 时刻」马上就要到来。

如今,物理世界的 AI 正在成为一个重要趋势:从机器人到辅助驾驶,越来越多的公司正在尝试用 VLA 模型来重构机器与物理世界交互的方式。

在辅助驾驶领域,端到端的 VLA 方法已经经历了大量验证,实现了前所未有的效果。然而,这种架构面临一个天然挑战:作为中间层的语言难以完整准确表达现实物理世界的全部细节。李飞飞曾在一次访谈中表示,「语言本身只是对物理世界的一种有损表达。」

在需要实时理解环境并生成驾驶决策的自动驾驶环境中,通过语言这一中间层来描述物理世界既有可能引入信息损失,还会增加额外推理路径。随着驾驶场景复杂度的增加,这种架构缺陷制约了系统准确率与效率的继续提升。

针对这一痛点,小鹏汽车给出的创新性解法是:直接去掉「语言转译」环节,在业界首次实现从视觉信号到动作指令的端到端直接生成。这正是其在去年 11 月亮相的第二代 VLA(XPENG VLA 2.0),并在此后数月完成了 468 个版本更新。

新技术很快产生了质变:在 3 月 2 日举办的「小鹏第二代 VLA 媒体体验日」上,何小鹏宣布,第二代 VLA 将于本月开启推送。



人们普遍预测,2026 年将成为「物理 AI 元年」。小鹏第二代 VLA 的落地,率先给出了通向完全自动驾驶的「中国答案」。

跨代级的驾驶体验

在实际体验上,第二代 VLA 的提升主要体现在三大维度:安心丝滑、全场景能力和高效率

由于端到端模型的泛化能力,小鹏第二代 VLA 已实现实现准确识别各种异形车辆的能力。



即使是对面来车的交通事故,VLA 也能正确识别障碍物和阻碍路线的车辆,并进行实时的路径规划。



在安全和流畅度提升的同时,小鹏的第二代 VLA 成为了真正的「全场景辅助驾驶」,支持从停车位、P 挡的原地激活,覆盖园区小路、乡村土路及无导航道路,能够应对小路通行、乡村小路避坑等复杂场景。

在拥挤且复杂的停车场,第二代 VLA 辅助驾驶可以自动漫游一直穿行到出门,给你充分的时间设置好导航,可以开始正式的行程。



这意味着从你上车按下启动键开始,AI 系统就能接管驾驶,真正实现了从家里车位到公司车位的点到点无缝衔接。何小鹏表示,全场景的辅助驾驶能力将保证在今年年内推出,在所有场景下的辅助驾驶能力都会像主干道一样达到「99 分水平」。

第二代 VLA 的通行效率也有大幅提升,在保障安全的前提下,小鹏实测其综合行车效率提升了 23%。在城市晚高峰的复杂路况下,其通行效率超过了传统的 L2 智驾和 Robotaxi。

基于这样的能力,第二代 VLA 的使用门槛大幅降低。何小鹏表示,好的技术一定要让每一个人都能用起来,国民的智驾就应该像坐电梯一样简单,做到简单、安全且好用。

不过,体验上是极度的简单好用,并不意味着技术上是在原有智驾框架上的简单修补。小鹏第二代 VLA 背后,是底层技术架构的一次完全「推倒重来」。

重构技术底座:原生多模态物理大模型

面向 L4 的终极目标,小鹏汽车自前年开始立项,对端到端的智能驾驶进行了完全的底层重构。

为了将自动驾驶推向物理 AI 的本质,小鹏构建了全流程能力,其中第二代 VLA 是真正做好高阶自动驾驶的关键技术底座

第二代 VLA 代表了 AI 驱动驾驶技术的一次重要架构升级,其不再像传统 VLA 模型那样先通过视觉感知获取环境信息,再将这些信息转化为基于语言的推理过程,最终生成车辆的行动指令。

通过引入一种端到端的「视觉 - 动作」(Vision-to-Action)架构,第二代 VLA 使系统能够将环境感知直接转化为驾驶决策,提升了整体效率,并显著加快了系统响应速度。

用一句话总结第二代 VLA:其以统一模型贯通环境感知、场景推理与行动决策,实现「感知 — 推理 — 行动」一体化

在感知层面,通过原生多模态 Tokenizer,打破不同模态之间的壁垒,实现了视觉、语音、文本等的统一编码与融合,对物理世界形成了统一的理解。

在推理层面,引入超密集的视觉思维链(Visual CoT),能够对复杂场景进行更高效视觉推理,相较于传统 CoT 推理效率提升约 32 倍。同时相较传统 CoT 预测误差降低 33%,提升系统对复杂驾驶环境的理解与决策判断。

在行动层面,直接生成多模态输出,包括语音、视觉反馈以及具体动作和行为。



小鹏通用智能中心负责人刘先明

不仅如此,小鹏汽车还联合北京大学提出了一种全新的视觉 token 剪枝框架FastDriveVLA,它能让 AI 像人类司机一样,在复杂路况下自动忽略路边的广告牌和无关风景,只盯着核心路况。

通过让 AI 只专注有用的核心信息而忽略无用信息,该框架高效解决了自动驾驶模型 VLA 在处理高帧率图像时带来的超高计算量问题。相关论文已被 AI 顶会 AAAI 2026 接收。



论文地址:https://arxiv.org/pdf/2507.23318

当然,构建出强大的 AI 底座仅仅是第一步。在高度复杂的物理世界中,面向 L4 级的辅助驾驶,还必须依托于另外几个核心要素。

能力公式重构:模型 × 算力 × 数据 × 本体

小鹏提出:第二代 VLA 的突破并非单点能力升级,而是遵循 L4 能力等于「模型 × 算力 × 数据 × 本体」的 Scaling Laws(规模法则)

正如前沿 AI 技术应用不断验证的那样,单纯堆叠通用芯片算力或一味追求庞大的模型参数,往往会在实际部署时遭遇瓶颈。真正的能力护城河,必须是算法、底层硬件架构与海量数据的深度耦合。

在自动驾驶这个顶级 AI 工程问题上,要想实现真正的 L4 级自动驾驶,仅靠单一的算法模型突破是远远不够的。系统必须依托车辆这个「物理本体」,在模型、算力和数据三个维度实现高度协同。

这是一条难而正确的路。

在这其中,既包含了理解真实世界的基础:原生多模态大模型。正如上文所述,小鹏的基座模型实现「看、听、读」的感官合一,将感知理解、场景推理、行动执行统一到同一模型框架中。



同时也包含了高度优化的软硬件协同,利用有效算力打开智能的上限

小鹏在底层算力架构上进行了深度定制。依靠自研的图灵芯片,小鹏实现了「芯片 - 编译器 - 模型」的联合优化研发。通过专门开发的自动化编译器和基于芯片定制化的图灵结构模型,小鹏最大化了算力的利用率,使得模型在车端的运行速度飙升了 12 倍。



这种深度的软硬件一体化设计,正是第二代 VLA 能够实时处理海量视觉信息的底气。

在训练 AI 的过程中,还必须构筑起数据飞轮,让视觉数据的高信息密度价值得以充分释放。

一个值得关注的对比是:当前国内所有数字 AI(主要是各类大语言模型)的日调用量大约为 0.737 万亿 Token,而小鹏仅仅 20 万辆搭载第二代 VLA Ultra 的车辆,每天在车端模型上消耗的物理 AI Token 量就高达 58.8 万亿 —— 小鹏车端模型每天消耗的 Token,是全国数字 AI 日调用量的近 80 倍。

目前,小鹏已经积累了超过 50PB 的训练数据,小鹏车端的高清传感器每秒要处理高达 53 亿字节的视觉数据。

最后,这一切都需要依托强大的 AI Infra,再通过世界模型的仿真训练实现闭环。

依托领先的 AI 基础设施,自去年科技日以来,小鹏在半年内完成了 468 个模型的版本迭代。

此外为了应对现实世界中难以穷尽的 Corner Case,小鹏引入了世界模型进行闭环仿真。如今,其仿真场景库已从一年前的 3 万个激增至 50 多万个,每天在虚拟世界中进行基于强化学习的「自我对弈」,日均仿真测试里程等效于 3000 万公里的实车测试。



可以说,小鹏第二代 VLA 是一个基于端到端 AI 算法、定制芯片高度整合,由海量数据和世界模型知识共同构建的超级物理 AI 生命体。

结语

随着新一代 VLA 智能驾驶的出现,物理 AI 的实力正在逐渐展现。



何小鹏表示,基于端到端模型的辅助驾驶能力将会成为汽车行业未来三年的重要突破,它是面向完全自动驾驶的第一个版本。在小鹏内部,该技术正在以前所未有的速度迭代。

对于一家车企而言,第二代 VLA 是小鹏在自动驾驶技术路径上的一次重要探索:不同于传统驾驶系统各个模块(如感知、规划、控制)逐一优化的工程化思路,其围绕自研基座模型打造统一的物理世界智能系统,从而具备理解真实世界并持续学习、演进的能力。

随着自动驾驶技术加速迈向 AI 驱动的智能时代,这种技术体系势必成为其在下一阶段竞争中争夺主动权的关键变量。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。