在i8发布之前,我前往北京理想总部参与了VLA体验日,也听@郎咸朋 讲了很多关于VLA的知识。 在此分享给大家,不打算用体系讲解的方式,因为教科书估计也没人看。那我就想到哪、讲到哪,给大家分享一下。
1. VLA是什么?
前年BEV,去年端到端,如今它们都成了牛夫人。2025年的小甜甜,那就是VLA:V,Vision视觉,L,Language语言,A,Action行动三个能力的组合。
听起来是全新的东西,其实是一脉相承。我的理解可能不严谨,但保证你一听就懂:
- BEV就是V大模型: 将Vision看到的东西,通过大模型来理解;可类比为人眼+人脑的结合,你睁开眼看到的是像素组合,但大脑却说看到了一个手机,这就是V模型正在发力。
V大模型能不能教会开车呢?理论上也能。你刚拿驾照还没上路,老司机告诉你很多规则:如果距离近了,就减速;如果车速差大于多少,就可以超车;如果前车速度剧变,你就要刹车……
你听了上百万个“如果”去开车,确实也能开到家,但副驾却说:好好练练吧,你和隔壁老王的车技差远了!
- 端到端是VA大模型:听到副驾的训斥,你开始反思自己和隔壁老王的差距。思来想去发现,并不是因为自己规则懂得少所以差,而是隔壁老王他根本不是按规则来开车的。你问他为什么超车如此丝滑,他答不出来,说眼睛看到了、手脚就这么操作了啊。
注意看,本来只是Vision大模型,老王这里加上了手脚,就变成了Vison+Action大模型。你问他怎么开这么丝滑,他答不出来、无法交流,因为这是VA大模型、少了一个L。
- VLA大模型: 观察久了你会发现,老王并不只是一个VA大模型,实际上他还能做出复杂的判断: 多个前车减速通常是交通事故、 有些车道表面快实际慢他就不会去走。
你问老王,怎么做到的? 他思考一阵说,因为这个那个,所以做出了这样的明智决策。这就是“可解释端到端大模型”。
你继续问他,这些因为所以,你在开车的时候就在思考吗? 老王回忆了一下说,新手时期会思考的,有经验的司机也会教一点经验,推理一下得到结论再指导自己开车。这就是“VLM+端到端”双模型,其实也就是 L + VA大模型。这时候已经有L+VA了,但并没有合体。
这时候遇到多个前车减速,自己通过推理也能意识到减速,但通常需要两三秒的反应时间,踩刹车的力度也有点过猛,有时候会吓往乘客。这其实就是L模型作用于VA时候的副作用。
老王继续说,新手时期是这么想的,但成为老司机之后,就算是走神,也能做出正确的决策啊!这时候,其实就已经没有思考的过程了,而是 VLA大模型了。
2. 端到端+VLM双模型,和VLA大模型的根本区别是什么?
L+VA和VLA的区别是什么呢? 我是这么认为的:L+VA,L和VA之间是通过符号来交流的,这种效率很低。L能听懂人说话,但VA不一定能听得懂L说话。
@郎咸朋 说:VLM效果有限,本质上不是VLM不好,而是端到端模型不能理解!
我认为,就算能理解,大模型之间通过符号来沟通,也是损失很大的。就像青春剧里主角谈恋爱,他们之间的恋爱感觉并不是通过“我爱你”这三个符号来传达的,而是通过那些难以言表的细微表情、动作、感觉来传达的。如果你不让他们见面,只允许通过文字来谈恋爱,那也不是没有爱情,那就是《第一次亲密接触》、少见的柏拉图恋爱了。
《黑天鹅》作者塔勒布也表达过类似的观点,他讲的不是情感,而是理性决策。他认为,当你用语言来描述一种观察或一种决策逻辑时,90%以上的有用信息就被忽略掉了。
于是他得到结论:好的决策,不能通过语言来描述,必须是通过直觉来做出的。
我是早几年看他的书的,觉得这人神神叨叨地胡说八道,但人家确实总是做出正确决策赚钱了,不得不服啊!没想到,这几年在汽车智驾领域的一些知识,让我理解并信服了他的观点。
举个例子,公司面临重大决策,领导说你应该这么做才是正确的,公司才能走向最终胜利; 至于为什么是对的,他也讲不出来。
一般的领导这么来梳理工作,下属很难信服。但历史上的伟大领袖,其实就是按直觉来决策的,好的决策必须要减少对符号逻辑的依赖。
我也和GPT交流过,我说你讲话好有逻辑的样子,作为一个大模型,你的工作逻辑到底是基于统计的大模型,还是基于符号的推理模型呢?
GPT是这么回答的:他做的是 Chain-of-Thought (CoT推理),底层是 token prediction,但能涌现“合理的思维链条! 这不是真正的推理,而是类推理能力。
最后,它还不忘夸自己一句:“GPT 的强大之处是:它把推理行为 “无监督地内化到了 token 空间中”。这让它可以用一种“软符号系统”(soft-symbol system)进行类推理。”
这也是L+VA和VLA的本质区别。 L和VA之间真正的符号连接,而VLA内部都是“像符号推理一样的 token prediction大模型”,这会更强大! 这和日常生活是对得上的,牛逼的领导是会侃侃而谈讲道理并说服你,而伟大的领袖都是直觉的 —— 不要问为什么,跟我干,有肉吃!
3. 理想对VLA的阐述
VLA的优点:
- 第一,思维能力,有CoT(Chain of Thought,思维链)的推理。
- 第二,沟通能力,用语言可以跟它交流了。
- 第三,记忆能力。
- 第四,自主学习能力。
关于安全感和舒适感。现在通过Diffusion可以生成很多这样光滑的曲线,使得车辆能完成更多驾驶的可能性(之前是生成连续轨迹点去执行)。
类比到数学,之前是“代数函数”,而现在则是“变分函数”。对应到历史上有趣的数学问题,那就是经典的“旋轮线”问题:从h高度滚下一个L长度的球,什么样的曲线时间最短? 讲到数学其实是很有乐趣的,但估计只有@酋知鱼 能体会我感受到的乐趣了。
为什么理想可以做到?他们说有数据、算法、算力和工程四方面要素。
- 关于数据,理想说:单从公里数来讲,做到1000万Clips或者2000万Clips,并不困难,但能够弄出这么多类型、这么多有价值的数据,这是我们的优势之一。
- 关于算法,理想说:算法里我们有两个核心能力,一个是评测效率非常高,一个是我们会使用强化学习做VLA。VLA大模型训练过程分五步,用MindGPT基座模型,经过后训练、RLHF(基于人类反馈的强化学习)和强化学习,最后做成VLA司机应用。
- 关于算力,理想说:大家以前只关注训练算力,企业有多少训练卡,有多少EFLOPS的训练算力。但在VLA时代,推理算力更重要。世界模型生成那么多场景,它是需要推理算力的,如果没有推理算力,那就不是在强化训练,就不是VLA。从算力量级上来说,我们是13EFLOPS,3EFLOPS给了推理,10EFLOPS给了训练。
- 关于工程,理想说:我们在Thor-U部署了VLA模型,它是4B的MoE(Mixture of Experts ,混合专家模型)模型,并且实现了FP8和INT8推理模型的优化。之前Orin-X上还是FP16的精度,现在是把精度进一步压缩到了FP8和INT8。
4. VLA的用户感知价值
从昨天理想i8的发布反馈来看,VLA的感知价值目前还不大,对卖车还没有显著的帮助。我认为有三个原因:
第一,这是一个新事物,大部分人没感知到,就难以理解价值。
第二,这是起步阶段,它的强大可能在将来,而不是现在。但掏钱是现在掏。
第三,L2到端到端阶段已经做得很好了,再往上走,只要不到L3那么感知价值都有限。
这其实和电车续航是一样的,以前300到500、500到700的时候,大家激动坏了。现在700到800,800到1000,大家会想“收钱吗? 免费送我就要,收钱就算了”!