DriveVLA-W0用世界模型放大自动驾驶Data Scaling Law

IP属地中国·北京 机器之心Pro 时间：2025-11-17 16:14:46

在自动驾驶领域，VLA 大模型正从学术前沿走向产业落地的 “深水区”。近日，特斯拉（Tesla）在 ICCV 的分享中，就将其面临的核心挑战之一公之于众 ——“监督稀疏”。

这一问题直指当前 VLA 模型的 “七寸”：其输入是高维、稠密的视觉信息流，但其监督信号却往往是低维、稀疏的驾驶动作（如路径点）。那么即便使用 PB 级的海量数据，VLA 模型的巨大潜力也无法被有效释放。
正当业界热议这一瓶颈时，一支来自国内顶尖学术机构与华为合作的团队，已经悄然给出了破解这一难题的 “锦囊”。一篇名为《DriveVLA-W0: World Models Amplify Data Scaling Law in Autonomous Driving》的新工作，为解决这一 “监督稀疏” 提供了极具洞见的解决方案。该研究提出，世界模型（World Model）是解锁 VLA 数据规模定律（Data Scaling Law）的关键钥匙。

论文标题：DriveVLA-W0: World Models Amplify Data Scaling Law in Autonomous Driving论文链接：https://arxiv.org/abs/2510.12796
VLA 的 “监督赤字”：Data Scaling Law 为何在自动驾驶失效？
自动驾驶领域的研究者普遍希望复现 Data Scaling Law 在 LLM 上的成功：通过扩大模型参数和数据规模，实现自动驾驶性能的飞跃。
但 DriveVLA-W0 指出，VLA 模型面临着与 LLM 截然不同的困境：“监督赤字”（Supervision Deficit）。
一个数十亿参数的 VLA 模型，其输入是高维、稠密的视觉信息流，但其监督信号却往往是低维、稀疏的驾驶动作（如路径点）。模型的大部分表征能力被浪费，导致其无法充分学习驾驶环境的复杂动态。
研究团队的实验证实了这一点：在稀疏的动作监督下，VLA 模型的性能会随着数据量的增加迅速饱和，Data Scaling Law 的效应在此大打折扣。
破解之道：用世界模型提供 “稠密” 的自监督信号
如何填补这一 “赤字”？DriveVLA-W0 的答案是：与其依赖稀疏的 “动作”，不如让模型学习稠密的 “世界”。
研究团队创造性地引入了世界模型，将 “预测未来图像” 作为一项稠密的自监督训练任务。

传统 VLA（左）仅依赖稀疏的动作监督。DriveVLA-W0（右）则额外引入了稠密的视觉预测任务，迫使模型理解环境。
当模型被要求去预测下一帧的完整视觉画面时，它必须去学习和理解这个世界的真实运行规律 —— 例如，其他车辆的运动趋势、行人与车辆的交互关系等。
这一设计为 VLA 模型提供了远比 “动作” 更丰富和稠密的学习信号，从根本上缓解了 “监督赤字” 问题。
核心贡献：世界模型 “放大” 了 Data Scaling Law
如果说解决 “监督赤字” 是这项工作的起点，那么其更核心的贡献在于发现了：世界模型能够显著 “放大”（Amplifies）数据规模定律。

在 700K 到 70M 的数据规模上，DriveVLA-W0（红线）的性能提升斜率显著优于基线（蓝线），展现了更强的扩展潜力。
研究团队在高达 7000 万帧的内部大规模数据集上进行了严格的 Scaling 实验。结果清晰地显示：
基线模型（仅动作监督）：随着数据量增大，性能提升迅速放缓。
DriveVLA-W0（世界模型）：性能随着数据量增加，实现了持续且显著的提升，与基线模型的性能差距越拉越大。
在 70M 帧的规模下，世界模型的加入，使模型的碰撞率降低了20.4%。这证明了世界模型带来的 “质变”，是单纯堆砌动作数据所无法企及的。
兼顾性能与效率：轻量级 MoE 专家
DriveVLA-W0 并非一个不考虑落地的 “学术模型”。针对 VLA 大模型在自动驾驶中面临的 “高延迟” 痛点，团队还提出了一种轻量级的 MoE“动作专家”（Action Expert）架构。
该设计在不牺牲性能的前提下，显著降低了模型的推理延迟，仅为基线 VLA 的 63.1% ，为 VLA 模型的实时部署提供了可能。

结语
这项研究工作不仅为特斯拉等行业先行者提出的 “真问题” 提供了清晰的解题思路，也为自动驾驶乃至整个具身智能领域，展示了世界模型在 “生成” 之外的另一条核心价值路径 —— 作为强大的自监督引擎，撬动 VLA 模型的 Data Scaling Law。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

5亿入局！首批150名新员工已入职，拼多多加快融入雄安新区建设

ICML 2026：从输入输出样例中自动生成程序——强化学习为大模型Programming-By-Example任务提供推理过程监督

Keychron推出K2 / K8 Ultra 8K机械键盘：6层填充，Apex轴体

华硕天选6笔记本配置上新，锐龙7 H 260 + 16G + 512G + 5060

Ubuntu Touch 24.04-2.0 Beta发布：适配索尼Xperia X等

阿莱德：全球6G目前处于前期研发、标准制定阶段商用时间存在不确定性

全站最新

5亿入局！首批150名新员工已入职，拼多多加快融入雄安新区建设

ICML 2026：从输入输出样例中自动生成程序——强化学习为大模型Programming-By-Example任务提供推理过程监督

Keychron推出K2 / K8 Ultra 8K机械键盘：6层填充，Apex轴体

华硕天选6笔记本配置上新，锐龙7 H 260 + 16G + 512G + 5060

热门推荐

阿里云QoderWork上线“意识”功能，实现AI自主记忆与技能进化

美管制 Anthropic 恰逢其时，“欧洲版 OpenAI”借势起飞主张摆脱美国依赖

荣耀X80 Pro Max定档6月22日：搭载11000mAh第四代青海湖电池

DeepSeek完成逾70亿美元首轮融资:估值超500亿美元

赋能开源系统安全，FreeBSD 启动 AI 辅助漏洞挖掘项目并获 25 万美元资助

机器人进化新引擎：阿里发布具身智能大模型Qwen-Robot系列

AI组队“拼单”新模式：OpenRouter 发布 Fusion API，主打性能与性价比双重优化

5亿入局！首批150名新员工已入职，拼多多加快融入雄安新区建设

阿里巴巴(09988)发布首个具身Qwen-Robot系列大模型打通物理世界行动闭环

ICML 2026：从输入输出样例中自动生成程序——强化学习为大模型Programming-By-Example任务提供推理过程监督

Keychron推出K2 / K8 Ultra 8K机械键盘：6层填充，Apex轴体

华硕天选6笔记本配置上新，锐龙7 H 260 + 16G + 512G + 5060

Ubuntu Touch 24.04-2.0 Beta发布：适配索尼Xperia X等

阿莱德：全球6G目前处于前期研发、标准制定阶段商用时间存在不确定性

迈从G98 V3机械键盘发售：无线续航2900hr，到手299.15元起