VLA大模型是什么？这是最通俗的一版解释

IP属地中国·北京 编辑：王婷易车 时间：2025-07-30 18:05:36

在i8发布之前，我前往北京理想总部参与了VLA体验日，也听@郎咸朋讲了很多关于VLA的知识。在此分享给大家，不打算用体系讲解的方式，因为教科书估计也没人看。那我就想到哪、讲到哪，给大家分享一下。

1. VLA是什么？
前年BEV，去年端到端，如今它们都成了牛夫人。2025年的小甜甜，那就是VLA：V，Vision视觉，L，Language语言，A，Action行动三个能力的组合。
听起来是全新的东西，其实是一脉相承。我的理解可能不严谨，但保证你一听就懂：
- BEV就是V大模型： 将Vision看到的东西，通过大模型来理解；可类比为人眼+人脑的结合，你睁开眼看到的是像素组合，但大脑却说看到了一个手机，这就是V模型正在发力。
V大模型能不能教会开车呢？理论上也能。你刚拿驾照还没上路，老司机告诉你很多规则：如果距离近了，就减速；如果车速差大于多少，就可以超车；如果前车速度剧变，你就要刹车……
你听了上百万个“如果”去开车，确实也能开到家，但副驾却说：好好练练吧，你和隔壁老王的车技差远了！
- 端到端是VA大模型：听到副驾的训斥，你开始反思自己和隔壁老王的差距。思来想去发现，并不是因为自己规则懂得少所以差，而是隔壁老王他根本不是按规则来开车的。你问他为什么超车如此丝滑，他答不出来，说眼睛看到了、手脚就这么操作了啊。
注意看，本来只是Vision大模型，老王这里加上了手脚，就变成了Vison+Action大模型。你问他怎么开这么丝滑，他答不出来、无法交流，因为这是VA大模型、少了一个L。
- VLA大模型： 观察久了你会发现，老王并不只是一个VA大模型，实际上他还能做出复杂的判断：多个前车减速通常是交通事故、有些车道表面快实际慢他就不会去走。
你问老王，怎么做到的？他思考一阵说，因为这个那个，所以做出了这样的明智决策。这就是“可解释端到端大模型”。
你继续问他，这些因为所以，你在开车的时候就在思考吗？老王回忆了一下说，新手时期会思考的，有经验的司机也会教一点经验，推理一下得到结论再指导自己开车。这就是“VLM+端到端”双模型，其实也就是 L + VA大模型。这时候已经有L+VA了，但并没有合体。
这时候遇到多个前车减速，自己通过推理也能意识到减速，但通常需要两三秒的反应时间，踩刹车的力度也有点过猛，有时候会吓往乘客。这其实就是L模型作用于VA时候的副作用。
老王继续说，新手时期是这么想的，但成为老司机之后，就算是走神，也能做出正确的决策啊！这时候，其实就已经没有思考的过程了，而是 VLA大模型了。

2. 端到端+VLM双模型，和VLA大模型的根本区别是什么？
L+VA和VLA的区别是什么呢？我是这么认为的：L+VA，L和VA之间是通过符号来交流的，这种效率很低。L能听懂人说话，但VA不一定能听得懂L说话。
@郎咸朋说：VLM效果有限，本质上不是VLM不好，而是端到端模型不能理解！
我认为，就算能理解，大模型之间通过符号来沟通，也是损失很大的。就像青春剧里主角谈恋爱，他们之间的恋爱感觉并不是通过“我爱你”这三个符号来传达的，而是通过那些难以言表的细微表情、动作、感觉来传达的。如果你不让他们见面，只允许通过文字来谈恋爱，那也不是没有爱情，那就是《第一次亲密接触》、少见的柏拉图恋爱了。
《黑天鹅》作者塔勒布也表达过类似的观点，他讲的不是情感，而是理性决策。他认为，当你用语言来描述一种观察或一种决策逻辑时，90%以上的有用信息就被忽略掉了。
于是他得到结论：好的决策，不能通过语言来描述，必须是通过直觉来做出的。
我是早几年看他的书的，觉得这人神神叨叨地胡说八道，但人家确实总是做出正确决策赚钱了，不得不服啊！没想到，这几年在汽车智驾领域的一些知识，让我理解并信服了他的观点。
举个例子，公司面临重大决策，领导说你应该这么做才是正确的，公司才能走向最终胜利；至于为什么是对的，他也讲不出来。
一般的领导这么来梳理工作，下属很难信服。但历史上的伟大领袖，其实就是按直觉来决策的，好的决策必须要减少对符号逻辑的依赖。
我也和GPT交流过，我说你讲话好有逻辑的样子，作为一个大模型，你的工作逻辑到底是基于统计的大模型，还是基于符号的推理模型呢？
GPT是这么回答的：他做的是 Chain-of-Thought （CoT推理），底层是 token prediction，但能涌现“合理的思维链条! 这不是真正的推理，而是类推理能力。
最后，它还不忘夸自己一句：“GPT 的强大之处是：它把推理行为 “无监督地内化到了 token 空间中”。这让它可以用一种“软符号系统”（soft-symbol system）进行类推理。”
这也是L+VA和VLA的本质区别。 L和VA之间真正的符号连接，而VLA内部都是“像符号推理一样的 token prediction大模型”，这会更强大！ 这和日常生活是对得上的，牛逼的领导是会侃侃而谈讲道理并说服你，而伟大的领袖都是直觉的 —— 不要问为什么，跟我干，有肉吃！

3. 理想对VLA的阐述
VLA的优点：
- 第一，思维能力，有CoT（Chain of Thought，思维链）的推理。
- 第二，沟通能力，用语言可以跟它交流了。
- 第三，记忆能力。
- 第四，自主学习能力。
关于安全感和舒适感。现在通过Diffusion可以生成很多这样光滑的曲线，使得车辆能完成更多驾驶的可能性（之前是生成连续轨迹点去执行）。
类比到数学，之前是“代数函数”，而现在则是“变分函数”。对应到历史上有趣的数学问题，那就是经典的“旋轮线”问题：从h高度滚下一个L长度的球，什么样的曲线时间最短？讲到数学其实是很有乐趣的，但估计只有@酋知鱼能体会我感受到的乐趣了。
为什么理想可以做到？他们说有数据、算法、算力和工程四方面要素。
- 关于数据，理想说：单从公里数来讲，做到1000万Clips或者2000万Clips，并不困难，但能够弄出这么多类型、这么多有价值的数据，这是我们的优势之一。
- 关于算法，理想说：算法里我们有两个核心能力，一个是评测效率非常高，一个是我们会使用强化学习做VLA。VLA大模型训练过程分五步，用MindGPT基座模型，经过后训练、RLHF（基于人类反馈的强化学习）和强化学习，最后做成VLA司机应用。
- 关于算力，理想说：大家以前只关注训练算力，企业有多少训练卡，有多少EFLOPS的训练算力。但在VLA时代，推理算力更重要。世界模型生成那么多场景，它是需要推理算力的，如果没有推理算力，那就不是在强化训练，就不是VLA。从算力量级上来说，我们是13EFLOPS，3EFLOPS给了推理，10EFLOPS给了训练。
- 关于工程，理想说：我们在Thor-U部署了VLA模型，它是4B的MoE（Mixture of Experts ，混合专家模型）模型，并且实现了FP8和INT8推理模型的优化。之前Orin-X上还是FP16的精度，现在是把精度进一步压缩到了FP8和INT8。

4. VLA的用户感知价值
从昨天理想i8的发布反馈来看，VLA的感知价值目前还不大，对卖车还没有显著的帮助。我认为有三个原因：
第一，这是一个新事物，大部分人没感知到，就难以理解价值。
第二，这是起步阶段，它的强大可能在将来，而不是现在。但掏钱是现在掏。
第三，L2到端到端阶段已经做得很好了，再往上走，只要不到L3那么感知价值都有限。
这其实和电车续航是一样的，以前300到500、500到700的时候，大家激动坏了。现在700到800，800到1000，大家会想“收钱吗？免费送我就要，收钱就算了”！

标签： 理想i8 理想汽车理想i8

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

售价128万元起，仰望U8L鼎世版正式上市

比亚迪方程豹钛7火爆上市，售价17.98万元起

方程豹钛7福州荣耀上市，首批车主共启智慧出行新篇

想要乘坐舒适度、还想户外探险？深蓝G318实力对标钛7

限时售价16.38万起领克10 EM-P正式上市

新车｜6.28万起极狐T1上市重塑A0级纯电市场价值

全站最新

蚂蚁开源发布2025大模型全景图：中美AI开发路线分化，AI编程工具迎来爆发增长

2025外滩大会发布全球大模型全景图：中国开发者18%居次席，开源生态现新趋势

蚂蚁开源发布2025大模型全景图：透视中美路线分化，解码AI开发效率革命新趋势

“海马emoji”究竟存不存在？ChatGPT等AI陷入集体认知“迷局”

热门推荐

售价128万元起，仰望U8L鼎世版正式上市

比亚迪方程豹钛7火爆上市，售价17.98万元起

方程豹钛7福州荣耀上市，首批车主共启智慧出行新篇

想要乘坐舒适度、还想户外探险？深蓝G318实力对标钛7

限时售价16.38万起领克10 EM-P正式上市

新车｜6.28万起极狐T1上市重塑A0级纯电市场价值

仰望U8L鼎世版上市，以鼎级安全重构行政豪华SUV新标杆

售价128万元起，仰望U8L鼎世版正式上市

方程豹钛7价格务实获好评，“顾家”大五座链接智慧生态

20万级方盒子硬派越野怎么选？深蓝G318对标钛7谁更香

魏牌高山7启动预售，定位家庭MPV市场，售价28.98万

方盒子又可以借鉴了？福特烈马1966，售价38.66万

长安的慕尼黑车展，中国汽车加速走向全球

仰望U8L鼎世版、新一代智己LS6 | 一周新车

新款智界R7/S7开启全国交付智界品牌2.0成果加速落地