7 月 29 日晚上,预热已久的理想 i8 终于上市,正好卡在理想成立十周年的节点。
i8 总共发布了三个版本,售价 32.18 - 36.98 万元。先来看看具体的价格和配置:
Pro 版 32.18 万,Max 版 34.98 万,Ultra 版 36.98 万。双电机智能四驱、双腔魔毯空气悬架、座椅舒适性配置、前排屏幕、HUD、激光雷达等配置均为全系标配。Pro 版搭载的是理想辅助驾驶 AD Pro,Max 版和 Ultra 版搭载的则是 AD Max。这场发布会信息量很密集,i8 的产品发布、VLA 司机大模型、理想同学智能体(Agent)、超充网络被塞在了两个小时的演讲里。
发布会的重头戏在于车,更是在于 i8 首发的辅助驾驶功能有大幅度升级。
理想的 VLA(视觉-语言-动作模型)与 i8 同步发布,让 i8 成了第一款搭载 VLA 司机大模型的理想车型。8 月份,VLA 就会在 i8 上交付。
所有 AD Max 车主也会在 8 月同步 OTA,包含了 Thor-U 平台与 Orin-X 平台的车主。另外,搭载 J6M 的 AD Pro 将在年底全量推送城市 NOA。
就在发布会的前几天,我们不仅替大家抢先试乘试驾了具备 VLA 能力的理想 MEGA 以及理想 i8,并且和郎咸朋及其团队进行了一次 3 小时左右的深入交流。关于 VLA 是什么、它能做到什么、以及理想是怎么做出来的,这些问题有了更为清晰的答案。
VLA 能力的提升,集中体现在三点:更懂语义、更擅长推理、更接近人类驾驶直觉。具体表现在:
行驶中能听懂「靠边停一下」「往前走 50 米」「快一点」这类自然语言指令,并据此完成操作;可以根据过往记忆设定特定路段的速度;能根据语音指令找到目的地,比如「帮我找到最近的星巴克」;在复杂路况下,它也能判断通行风险、选对道路,主动规避障碍。在理想看来,VLA 带来的不再只是更好用的辅助驾驶,更是换了一个能听懂人话、会动脑子的「司机」。
这是辅助驾驶领域的一次跳跃,理想率先进入了无人区。
为什么是 VLA
过去几年,辅助驾驶经历了三种架构的迭代:规则算法、端到端、VLA,这是一个从指令控制,到模仿行为,再到理解意图的过程。每一代技术都在不停地提升算力、平均接管里程,本质上是要不断接近人类的驾驶方式。
7 月 25 日,理想汽车自动驾驶研发高级副总裁郎咸朋博士在跟媒体交流的过程中分享了理想关于 VLA 的研发历程和思考逻辑。郎咸朋认为,辅助驾驶的人工时代到现在 AI 时代的分水岭,是从无图到端到端。在原来轻图、NPN 或者无图的人工时代,辅助驾驶的核心是规则算法。「一个典型场景就是工程师他会自己去设计算法,并且通过编程来控制车辆运作、运行。决定人工时代性能的核心就是工程师,人的经验、编程能力、算法能力决定了这个系统是不是性能好。」
人工时代的局限性在于,单靠人力难以解决所有场景,用郎咸朋的话说,很多场景是「按下葫芦起来瓢」。于是辅助驾驶进入了端到端时代。
端到端 + VLM(视觉 - 语言大模型)的核心是模仿学习,用人类驾驶的数据来训练模型。这个技术阶段,决定性的因素就是「数据」。数据多,覆盖的场景全,数据质量好——最好是来自老司机,这时训练模型的性能就会非常好。
但模仿学习终究有上限。理想是最早一批意识到这一点并转向强化学习路线的企业之一。相比过去只依赖真实驾驶数据,VLA 采用生成数据和仿真环境结合的方式,让模型能在无风险、可控的虚拟世界中自主进化。这套思路如今也正在被更多车企采纳,VLA 正成为智能驾驶的新共识。
郎咸朋解释,需要生成数据来训练模型的原因在于,人类驾驶数据存在严重的分布不均,大多集中在白天、晴天、正常通勤等常规场景,真正复杂或危险的工况数据稀缺且难以采集。而训练具备真实决策能力的模型,恰恰需要这些边缘与极端场景。
这就要求引入合成数据和高质量仿真环境,用生成式方法构建覆盖更全、分布更广的数据集,同时不断评测模型表现。最终决定模型性能提升速度的关键,不是收集了多少真实数据,而是仿真迭代的效率。相比传统的数据驱动方式,这是一种更具主动性的训练方式。
合成数据的训练方式也直接带来了成本的下降。据郎咸朋介绍,2023 年,一年用实车的有效测试里程大概有 157 万公里,每公里成本是 18 元。而到了今年上半年,总共测了 4,000 万公里,其中实车只有 2 万公里,测试成本来到了平均每公里 5 毛钱。「就是付个电费和服务器的费用,并且测试质量还高,所有的场景都能举一反三,可以完全复测,分毫不差。」
接下来理想要回答的问题是:VLA 模型到底强在哪?为什么要在端到端 + VLM 之后做 VLA?
VLA 的全称是 Vision-Language-Action,是视觉-语言-动作模型。在 VLA 模型中,V 承担着空间感知的职责,通过摄像头、导航等多种输入,构建出对周围环境的理解;L 则把这种感知翻译成清晰的语言;A 指的是根据对场景的编码,生成行为策略,也就是模型该怎么开车。
简单来说,VLA 就是一个能听懂人话、看懂图像并结合两种信息行动的模型,让人无需通过特定语音、文字指令或按钮,而是通过自然语言去控制包括机器人、汽车在内的智能体,能够独立执行任务、承担责任。
它可以听懂人话,比如「开慢点」「换到右边车道」;可以记住偏好,比如之前在这条路上都是开 80km/h;也能像老司机一样,提前做出防御性操作,比如在桥洞前减速,避免突然冲出来的车辆。而这些能力靠传统端到端模型无法实现。
郎咸朋说,端到端架构不具备深度思考能力,顶多算是一个应激反应,输入后模型给一个输出,背后没有深度逻辑。「就像猴子开车一样。喂猴子一些香蕉,它可能会按照你的意图做一些行为,但并不知道自己为什么要做这些行为,一敲锣它就过来,一打鼓它就跳舞,但不知道为什么要跳舞。」
所以,即使理想后来尝试在端到端中加入 VLM,试图让 VLM 提供更好的决策,还是会出现端到端无法理解 VLM 在说什么的问题。
而 VLA 的核心能力可以总结为:能思考、能沟通、能记忆、能自我提升。基于这几个能力,产品上带给用户的实际体验是安全、舒适、高超的驾驶技巧和自然的交互能力。在 i8 这款产品上,VLA 的能力提升带来了整个产品体验的升级。
而理想也把对辅助驾驶的功能定位,从安全、能用的「职业司机」,进化成了「给所有人提供一个更好的家庭司机」。
这就要求辅助驾驶在功能价值之外,还要满足乘员的情绪价值诉求。郎咸朋说:「你自己在车上和家人在车上的时候,开车方式是不一样的,你肯定会开得更安全、舒适,并且会根据家人的偏好来开车。」
i8 发布会之前,现场放了一段体验 VLA 的短片,李想在其中承认,之前对辅助驾驶要成为「老司机」的定义有点问题。「老司机是开的人舒服,乘的人不一定舒服。后来我们做了一个新的定义:职业司机,按照国宾司机的标准来,这样所有人就都不挑了。」
我们在试乘试驾过程中也发现,「国宾司机」这套新标准并不是说说而已。试乘现场提供的 VLA 穿梭巴士体验并不复杂,主要在理想园区内进行,时速约为 10 公里,但已经可以通过语音控制完成靠边停车、左右转向和提速等操作。在车辆处于无人状态下,它可以模拟完成「去咖啡店、快递站取件后自动返回」等日常任务。
更值得注意的是,在面对极窄通道路口时,VLA 展现出了相当稳定的通过能力。也可以驶出园区,接入公共道路前往下一个目的地。整体表现与今年早些时候 L9 试验车上的司机 Agent 版本相近,尽管称不上惊艳,但在执行精度和动作节奏上确实更稳了。
理想注定第一个做出 VLA?
目前,VLA 已经成为智能驾驶行业的新方向。除了理想之外,小米、小鹏、吉利等多家整车企业,以及元戎启行、Waymo 等供应商和自动驾驶公司也都在不同程度上推进类似的架构转型。然而在实际落地速度上,理想显然走在了最前面。
李想在 i8 的发布会上给出的时间表是:
8 月份在 i8 上交付 VLA;所有 AD Max 车主也会在 8 月同步 OTA,包含了 Thor-U 平台与 Orin-X 平台的车主。这并不是偶然发生的结果。
在郎咸朋看来,VLA 并不是一套跳级的打法,而是端到端之后的自然发展。如果没有经历过端到端阶段对模型感知、决策、控制等环节的完整训练,就无法一步跨入 VLA。
郎咸朋在采访中表示,虽然 VLA 的数据、算法等可能跟之前不太一样,但是这些仍然是要建立在之前的基础上的。「如果没有完整的通过实车采集的数据闭环,是没有数据能够去训练世界模型的。理想汽车之所以能够落地 VLA 模型,是因为我们有 12 亿(公里)数据,只有在充分了解这些数据的基础上,才能够更好的生成数据。」
而为什么是理想最先做出 VLA,郎咸朋的答案是,「数据、算法、算力和工程,四个方向我们都很强」。
理想在算法上的核心能力首先体现在对数据的理解与利用上。「数据不是谁都有,」郎咸朋表示,「到 2025 年 7 月份,我们已经累计了 12 亿公里的有效数据。这些数据得益于我们销量的增长,我们车也卖出了 130 多万辆。」
从 2020 年起,理想就系统性地按天气、道路类型、交通状态等维度细化标签,建立起一套覆盖复杂工况和长尾场景的数据体系。郎咸朋表示,「做到 1,000 万 Clips 或者 2,000 万 Clips,并不困难,但能够弄出这么多类型、这么多有价值的数据,这是我们的优势之一。我们的 1,000 万 Clips 由很多类别的数据构成,并且包含很多精心挑选的数据。」
当传统实车数据无法再提供更多的提升,理想又大规模引入合成数据。借助世界模型技术,理想能将历史实录场景进行重建与扩展——一个普通的高速 ETC 路口,可以被虚拟为雨夜、雾天、黄昏等多种工况,并衍生出轻微变形、干扰车辆等极端情况。VLA 曾出错的场景会被自动改编成一系列变体,不断循环训练。
郎咸朋在采访中对仿真数据的效果表示非常自信:「我们现在的仿真效果完全可以媲美实车测试,现在的超级版本和理想 i8 的 VLA 版本中 90% 以上的测试都是仿真测试。从去年端到端版本我们就已经开始进行仿真测试的验证,目前我们认为它的可靠性和有效性都很高,所以我们以此替代了实车测试。」
不过他也表示,仍有一些测试是无法替代的。「比如硬件耐久测试,但和性能相关的测试我们基本上会使用仿真测试替代,效果也非常好。」
支撑这套体系的是理想在推理与训练算力上的资源投入。郎咸朋介绍,当前理想拥有总计 13 EFLOPS 的训练平台,其中 10 EFLOPS 分配给训练,3 EFLOPS 用于推理。推理能力的重要性在 VLA 时代被放大,因为世界模型的生成与场景扩展都依赖推理性能,若没有强大的推理卡,就无法开展真正有效的强化训练。据理想内部估算,其目前所拥有的推理资源等效于 3 万张英伟达 L20 的推理卡。
但算力并不代表可交付。VLA 能否真正进入车端,还需跨越工程落地这道门槛。过去一年,理想在芯片适配和模型压缩方面持续发力:去年在 Orin-X 上成功部署 2B 模型,今年又在 Thor-U 芯片上实现 4B MoE(混合专家)模型的部署,且推理精度从 FP16 压缩至 FP8 和 INT8。当前 VLA 已适配 Orin-X 和 Thor 平台,未来还将向 FP4 推进,继续压榨算力的潜能。
郎咸朋提出了一个观点:「我们认为上一代技术能力的上限,是下一代技术能力的起点。」这个观点来自理想进行辅助驾驶架构迭代的实践经验。从 2021 年做到 2024 年,这个时期属于规则时代,理想把(高速 + 城市)全场景的 MPI(平均接管里程)做到了大约 10 公里,这也是端到端起步阶段的数据,现在端到端 + VLM 方案的 MPI 则来到了 200 公里左右。
「现在,如果 MPI 真正能提升到 1,000 公里,就意味着可能真的是两三个月才接管一次,这可能意味着迈入到下一个时代了。」
VLA 的 ChatGPT 时刻何时到来
7 月 25 日,42 号车库和行业多家媒体与理想的自动驾驶团队进行了深入交流,接受采访的有理想汽车自动驾驶研发高级副总裁郎咸朋博士、理想汽车自动驾驶高级算法专家詹锟和理想汽车自动驾驶高级算法专家湛逸飞。
在这次采访中,理想的自动驾驶团队对于 VLA 的推理能力、现阶段的指标以及落地节奏等关键问题做出了回应。他们透露,VLA 背后最大的门槛其实是世界模型的仿真能力,别人想跟也很难一口气补齐整条链路。以下是群访的主要内容, 我们进行了不改变原意的编辑:
Q:VLA 司机具备推理能力,并且表现更像人了,但是需要几秒钟的推理时间,请问在突发场景下,VLA 司机是怎么进行快思考的?
郎咸朋: 您认为思考过程很慢实际上是显示的原因,本身推理速度是很快的,只是为了让大家能够看地更清楚我们摘取了一些重要的思考过程显示出来。实际上现在 VLA 的推理帧率在 10 Hz 左右,相比之前的 VLM 提升了三倍多,之前端到端的 VLM 部分是 3 Hz 左右。
Q:您是如何判断自动驾驶落地的时间表?如何进行商业变现?
郎咸朋: 从技术层面看,我们认为 VLA 模型是可以走向更高级别的自动驾驶,但它现在处于起步阶段,在这个技术周期里,起步阶段 VLA 模型约等于端到端的上限,它还有很长一段路要走。但我认为这个过程不会特别慢,因为端到端从 10 MPI 到现在 100 MPI 只用了一年左右的时间,我相信VLA的迭代速度也会非常快,可能我们明年坐在这儿的时候它已经迭代到 1,000 MPI 了。
商业变现的影响因素非常多,最核心的是国家的法律政策。理想汽车也在积极参与国家相关政策法规的讨论小组,从技术上来看 L4 级别的自动驾驶落地是非常快的,但从商业角度上看,还有很多问题需要考虑,比如保险,事故之后的赔偿等。
Q:智能驾驶存在一个「不可能三角」,也就是效率、舒适和安全三个目标之间是互相制约的,目前阶段可能难以同时实现。请问理想汽车的 VLA 目前在当前阶段最先优化的指标是哪一个?刚刚提及到 MPI,是否可以理解为目前理想汽车最终的指标是提升安全性以有效减少接管?
郎咸朋: MPI 是我们衡量的指标之一,还有一个指标是 MPA,也就是指发生事故的里程,现在是 300 万公里左右。理想车主的人驾数据是 60 万公里左右出一次事故,而在使用辅助驾驶功能的情况下是 350 到 400 万公里发生一次事故。这个里程数据我们还会持续提升,我们的目标是将 MPA 能提升到人类驾驶的 10 倍,也就是比人驾安全 10 倍,我们希望在辅助驾驶功能下能够做到 600 万公里才出一次事故,但这必须等到VLA模型提升之后才能做到。
针对 MPI,我们也做过分析,可能一些安全风险问题会导致接管,但有时候舒适度不好也会导致接管,比如急刹、重刹等,因为并不一定每次都会遇到安全风险,但是如果驾驶舒适度不好,用户依然不想用辅助驾驶功能。因为 MPA 可以衡量安全性,在 MPI 方面,除了安全性之外,我们重点提升了行车舒适度,如果体验了理想 i8 的辅助驾驶功能,会体验到舒适度比之前的版本有很大提升。
效率是排在安全和舒适之后的,比如走错路,虽然效率有所损失,但我们不会通过一些危险的动作立刻纠正,还是要在安全和舒适的基础上去追求效率。
Q:您刚才讲到从规则到端到端 + VLM 是比较大的技术路线革新,但 VLA 其实没有颠覆端到端 + VLM,所以是否可以理解成 VLA 是偏向于工程能力的创新?
詹锟: VLA 不只是工程方面的创新,大家如果关注具身智能,会发现这波浪潮伴随着大模型对物理世界的应用,这本质就是提出了一个 VLA 算法,我们的 VLA 模型就是想把具身智能的思想和路径引用在自动驾驶领域。我们是最早提出,也是最早开始实践的。VLA 也是一种端到端,因为端到端的本质是场景输入,轨迹输出,VLA 也是如此,但算法的创新是多了思考。端到端可以理解为 VA,没有 Language,Language 对应的是思考和理解,我们在 VLA 中加入了这一部分,把机器人的范式统一,让自动驾驶也能成为机器人的一类,这是算法创新,不只是工程创新。
但对于自动驾驶而言,很大的挑战是必须要有工程创新。因为 VLA 是一个大模型,大模型部署在边缘端算力上是非常具有挑战的。很多团队并不是认为 VLA 不好,而是因为 VLA 部署有困难,把它真正落地是非常具有挑战性的事情,尤其是在边缘端芯片算力不够的情况下是不可能完成的,所以我们是在大算力芯片上才能部署。所以这不仅仅是工程创新,但的确需要工程部署大范围优化才能实现。
Q:从行业角度来看,目前智驾体验是比较趋同的,未来理想汽车是否会将自己的智驾能力向行业输出或开源或向其他车企售卖?
郎咸朋: 我认为是可以的,我们希望为行业做贡献。但前提是,第一,我们是不是能够很好地验证这套系统,因为整个 VLA 的发展还是在技术周期的初期阶段,需要继续提升;第二,是否其他人有能力和我们一起去做这件事,因为他也需要有自己的评测方式、仿真环境,以及强化学习训练能力。
从公司或我个人的态度上,是希望能够促进行业发展,但从目前 VLA 技术发展阶段来看,依然是比较初级的,它的发展速度可能会比较快,像端到端一样,用一年的时间将效果提升 10 倍。行业发展速度会非常快,我相信明年沟通的时候可能会讨论一下开源的问题。
Q:今年下半年开始,各家车企都会推进 VLA,理想对于 VLA 这个技术的优势或技术壁垒是怎样的?
詹锟: 第一个是我们的技术栈是有延续性的,并不是从之前的规则时代突然跳到 VLA,那它肯定会有各种各样的问题,比如有没有把数据积累上来,有没有那么好的训练,有没有那么好的仿真评测系统等等。我们现在做 VLA 其实是一个延续性的技术架构,甚至把原来的优势都利用起来,站在巨人的肩膀上继续做。
郎咸朋: 技术壁垒肯定是有,理想最核心的技术壁垒还是世界模型仿真的壁垒,这个壁垒是非常高的,别人很难短时间去复制出来。因为它的迭代速度得确保,且还得用实车去测试,所以是很难超越我们的。
Q:理想对 VLA 司机的定义是一个更好的家庭司机,一个安心的移动空间,未来 VLA 技术会不会拓展到别的产品线或一些服务过程中,撇开商品车之外的那些服务?
詹锟: 我们相信 VLA 在未来会形成一个更大的、统一的架构。我们也觉得 VLA 是在对物理世界 AI 落地来说,是非常好、非常一致性的前瞻技术,并不仅仅是自动驾驶,可能是物理 AI 目前看到最合理的一个方向。
郎咸朋: 这肯定是可以拓展的,我们也成立了各种其他的机器人部门。VLA 是一个很好的具身智能的技术框架,可能可以延续到其他方向。
Q:Orin X 后续版本的推送是同步的,还是会有差异?另外,Orin X 去推 VLA 的时候,它的能力上限在你们内部去考虑,后续多长时间它会和 Thor U 拉开差距,还是一直去保持同步的更新?
郎咸朋: 我们是同步推送的,这次如果 i8 上线的时候,老用户 AD Max 的车主,包括 2022 年买车的车主,只要是 Orin X 的芯片或者 Thor 芯片,都会同步推送。目前测试来看在能力上没有任何差异,帧率上也没有差异,我们做的工程优化都非常好,都是 10 帧的。唯一的差异就是 i8 的底盘跟 L9 的底盘是有些差异,舒适度的体验上可能有一些不同。
后续的推送节奏也是同步的,Orin 平台和 Thor 平台都是同步来推送。至于什么时候能拉开差异,我们现在肯定不会做这种差异化。但是随着下一步的迭代,如果我们在 INT4 的量化上有一些突破,那个时候可能会有一定差异,但是现在谈这个还为时尚早。
Q:我们今天体验的这一版实车,在你们心里的评分大概是多少?要达到多少分,你们认为才可以大量的推送给用户。
郎咸朋: 我们内部是有一个打分的机制,以仿真为例,现在是全面先对标 OTA7.5,OTA7.5 是我们在端到端上最后一个版本。这个版本的得分,内部是有评分的,我们在推出第一版 VLA 的时候,包括大家今天试驾这版的 VLA,它在我们内部的打分已经全面超越了OTA7.5 的。但是在一些小的分数上,可能有一些波动的。在整体的打分情况上,这个版本已经超越了端到端一点点。
但是我们在真正推送用户之前,我们会做到一个明显的效果提升。今天大家试到的是我们特意让大家先试一下我们在舒适度上的一些提升,如果大家比较熟悉车,肯定是能体验出来的。接下来我们会在安全、合规、导航、效率等等方面,我们会在自己的一些维度上都会有较大幅度的提升。让熟悉我们车的人买 i8 一上车就会有非常大的体验。让没用过辅助驾驶的人,使用辅助驾驶的时候,也会有很强的安全感和安心感,而且还有很强的舒适程度。
Q:大家都说多模态模型还没有进入所谓的 GPT 时刻,无论是对世界的理解还是数据的训练,虽然大家都模模糊糊看到一个方向,但具体怎么做没有一个明确的解法,这时候你们需要做一个量产方案去推送到市场上,你觉得这个方案是一个足够好的解法了吗?以及它抵达所谓的 GPT 时刻还需要花多长时间?
詹锟: 大家说多模态模型没有达到 GPT 时刻,可能指的是 VLA 这种物理 AI,而不是 VLM,其实现在 VLM 已经完全满足一个非常创新的 GPT 时刻。如果针对物理 AI,现在的 VLA,特别是在机器人领域、具身领域可能并没有达到 GPT 时刻,因为它没有那么好的泛化能力,但在自动驾驶领域,其实 VLA 解决的是一个相对统一的驾驶范式,是有机会用这个方式做到一个 GPT 时刻的,我们也非常承认现在的 VLA 是第一版本,也是业界第一个往量产上要推的 VLA 版本,肯定会存在一些缺陷。
这个重大尝试是想说我们想用 VLA 来探索一个新的路径,它里面有很多尝试的地方,有很多需要去落地的探索的点,不是说不能做到 GPT 时刻就一定不能去做量产落地,能给用户「更好、更舒适、更安全」的体验就可以交付。
GPT 时刻更多指的是具有很强的通用性和泛化性,在这个过程可能随着我们自动驾驶往空间机器人或往其它具身领域去拓展的时候会产生出更强的泛化能力或者更综合的统筹能力,我们也会在落地以后随着用户数据迭代、场景丰富、思维逻辑性越来越多、语音交互越来越多逐渐往 ChatGPT 时刻迁移,不是一定要达到 GPT 时刻才能做一个自动驾驶模型。
比如我们落地了 VLA 以后不能往 ChatGPT 去迁移,这是我们 VLA 落地第一个版本后逐渐会往更丰富、更通用、更多样化能力去做的 VLA 模型。像郎博说的到明年我们如果到了 1000 MPI,可能会给用户这种感觉真的到了一个 VLA 的 ChatGPT 的时刻。