当前位置: 首页 » 资讯 » 科技头条 » 正文

理想狂砸150亿研发!连甩12篇顶会论文,把自动驾驶的“家底”都亮出来了

IP属地 中国·北京 车东西 时间:2026-06-08 20:23:59


车东西(公众号:chedongxi)
作者 | Janson
编辑 | 志豪

理想汽车12篇论文入选计算机视觉顶会CVPR!

车东西6月8日消息,日前,计算机视觉与模式识别领域的顶级会议CVPR 2026召开,理想汽车12篇论文入选,同时还有多篇论文参与了现场讨论和发表。

作为与ICCV、ECCV并称为计算机视觉三大顶会,一次入选12篇论文的含金量不言而喻。

此次理想汽车入选的12篇论文,覆盖世界模型、端到端规划、多模态感知、强化学习、认知模型、语言与视觉智能等关键方向。

可以说,理想汽车的智能化竞争正在从产品功能,进一步深入到底层模型、仿真、安全和推理能力。

而这背后,也是理想汽车近几年持续加码研发的结果。

据理想汽车方面透露,截至2026年一季度末,理想汽车已连续5个季度保持30亿元左右的研发投入,相当于理想汽车五个季度就投入了约150亿的研发费用,2025年全年研发费用也是达到113亿元。

近5年来,理想汽车已在CVPR、ICCV、ECCV、NeurIPS、SIGGRAPH、IROS、ICRA等顶级会议和期刊上发表近百篇论文。

不过,相比单纯看“发了多少篇”,更值得关注的是,这12篇论文分别解决了什么问题。

对此,车东西拆解了这12篇论文,帮你总结理想汽车在自动驾驶底层技术上的四条主线。

一、拿下世界模型四项突破 仿真与安全基座升级

在自动驾驶领域,世界模型要解决的,是车辆能否在行动前先理解和推演这个世界。

此次理想汽车共有四篇世界模型方向论文入选CVPR 2026,分别从深度估计、三维重建、交通规则认知评估和安全风险预判四个层面展开,形成了从“还原真实世界”到“理解交通规则”,再到“预判危险后果”的技术链路。

道路结构会如何变化,其他交通参与体可能怎样运动,一条轨迹会不会带来风险,复杂交通规则之间又该如何取舍。

对面向真实道路的自动驾驶来说,世界模型不仅是仿真的基础,也是提升安全性和长尾场景处理能力的重要底座。


▲InfiniDepth高精度连续深度估计方法示意

在几何理解层面,InfiniDepth(一种高精度连续深度估计方法)关注的是车辆理解三维世界时最基础也最关键的问题——深度。

传统深度估计方法通常在固定分辨率的图像网格上预测结果,容易受分辨率限制,细小结构和几何边界不够精细。

InfiniDepth将深度表示为连续的神经隐式场,使模型可以在任意二维坐标上查询深度,从而支持更高分辨率、更细粒度的深度估计,并在精细区域和新视角合成任务中表现出优势。

对于车辆场景而言,这类能力有助于更准确地恢复道路、车辆、障碍物等三维结构,为后续仿真和环境建模提供更可靠的几何基础。

如此一来,车辆能更精细地判断画面中每个物体离自己有多远,为三维环境还原和仿真建模打基础。


▲Unposed-to-3D真实驾驶图像生成三维车辆能力

在仿真资产构建层面,Unposed-to-3D(一种真实驾驶图像生成三维车辆能力)解决的是另一个现实问题,高质量三维车辆资产从哪里来。

论文指出,现有三维车辆生成方法往往依赖合成数据训练,和真实道路图像存在域差距,生成结果还可能存在姿态不统一、尺度不准确等问题,难以直接放入驾驶仿真环境。

Unposed-to-3D通过两阶段框架,从真实驾驶图像中学习三维车辆重建,并引入尺度感知和外观协调模块,使生成车辆在尺寸、姿态和光照外观上更适合真实驾驶场景仿真。

这意味着,未来构建大规模、多样化的仿真交通环境,可以更少依赖人工建模,更高效地从真实世界中获取可用资产。


▲DriveCombo复杂交通规则推理评测框架

世界模型不仅要“看得准”“建得真”,还要能理解交通世界里的规则,对此,理想发布的DriveCombo正是面向复杂交通规则推理提出的评测基准。

论文指出,已有交通规则评测往往停留在单一规则场景,例如识别交通标志或简单路权判断,但真实驾驶中更常见的是多条规则同时出现,甚至发生冲突。

DriveCombo构建了文本与视觉结合的组合式交通规则推理基准,并提出五级认知阶梯,从单规则理解逐步提升到多规则整合和冲突消解。

对14个主流多模态大模型的评估显示,随着任务复杂度提升,模型性能会系统性下降,尤其在规则冲突场景中更明显。

简单说,DriveCombo不是一个驾驶模型,而是一套“考试题”,用来测试多模态大模型能不能理解复杂交通规则,尤其是多条规则冲突时该怎么判断。


▲AD-R1面向安全预判的公正世界模型整体框架

除此之外,安全预判则是世界模型走向闭环训练的关键一步。AD-R1聚焦端到端驾驶强化学习中的一个核心难题:如果世界模型只在安全专家数据上训练,它可能会形成“乐观偏差”——面对危险轨迹时,仍然倾向于预测一个看似安全的未来,例如忽略碰撞或道路边界风险。

AD-R1提出“公正世界模型”的概念,通过反事实合成生成碰撞、驶离道路等风险场景,让模型学会真实预测危险后果,并将其作为闭环强化学习中的内部评论器,为候选动作提供安全反馈。

换句话说,模型不只是学习“好司机怎么开”,也要学会“错误动作会导致什么后果”。这对于提升系统在长尾风险场景下的可靠性,具有直接意义。

如此一来,世界模型不再只是生成逼真的画面或场景,而是在向更完整的“可推演、可评估、可用于训练”的智能系统演进。

这四项研究共同构成了理想汽车在世界模型方向的系统性布局,也为智驾从“看见世界”走向“理解世界、推演世界并规避风险”提供了更坚实的技术支撑。

二、认知对齐与语言、视觉智能 让模型推理更准更快

在训练侧世界模型是关键,而在推理侧,认知对齐、语言、视觉智能也是十分重要的一环。

要让车辆从“看见道路”进一步走向“理解道路”,模型需要具备的不只是识别能力,还包括连续认知、语言理解、动作生成以及高效部署能力。

如何让模型不只是“识别得准”,而是能够连续地理解、准确地对齐、高效地推理,并最终可靠地执行是关键。

针对上述问题,理想拿出了5篇关键研究。CogDriver提升驾驶决策的时序稳定性,LinkVLA打通语言理解与动作生成,FastMMoE降低多模态大模型推理成本,CoV-Align提升视觉与语言的细粒度对齐效率,Switch-KD则让大模型能力更容易迁移到轻量模型。

它们共同构成了理想汽车在认知模型、语言智能和视觉智能方向的技术积累,也让车辆从“看见和判断”进一步走向“理解、推理和行动”。


▲CogDriver提升驾驶决策时序稳定性的方法示意

在驾驶认知层面,CogDriver关注的是当前视觉语言模型在时序理解上的短板,有助于让系统更好的理解驾驶场景。很多模型处理驾驶场景时,更像是在逐帧“看图说话”,缺乏对历史状态和持续意图的记忆,容易造成决策抖动,难以完成复杂连续动作。

CogDriver引入“认知惯性”机制,通过大规模视觉—语言—动作数据集提供时序监督,并在智能体中加入稀疏时序记忆模块,让模型能够形成更稳定的内部状态。

实验显示,CogDriver在Bench2Drive闭环驾驶得分上提升22%,在nuScenes上将平均轨迹误差降低21%,说明时序一致性对于提升规划稳定性具有直接价值。

不难看出,CogDriver就是给驾驶模型加入“记忆”和“惯性”,让它做决策时不再只看当前一帧,而是结合前后状态保持判断稳定。

如果说CogDriver解决的是“连续理解”的问题,那么LinkVLA更进一步面向“理解之后如何行动”。

视觉语言动作模型被认为是端到端驾驶的重要方向,但现有方法常常存在两个问题:一是语言指令和动作输出之间对不齐,二是逐步生成动作序列导致推理效率较低。


▲LinkVLA打通语言理解与动作生成的整体框架

LinkVLA通过把语言和动作统一到共享离散码本中,从结构上强化跨模态一致性;同时引入动作理解辅助任务,让模型既能从语言到动作,也能从轨迹反推语义描述。

它还采用由粗到细的两步生成方式替代传统逐步解码,在闭环驾驶基准中提升指令遵循和驾驶表现的同时,节省了86%的推理时间。

如此一来,通过LinkVLA就可以让系统延迟更低,更聪明。

模型变得更聪明之后,另一个现实问题是:能不能跑得更快、更轻。


▲FastMMoE多模态大模型免训练加速方法示意

FastMMoE面向MoE架构多模态大模型提出免训练加速框架,从路由行为入手,一方面减少视觉Token不必要的专家激活,另一方面根据路由概率分布识别并裁剪冗余视觉Token。

相比单纯从注意力权重判断哪些Token可以删除,FastMMoE更贴近MoE模型本身的计算机制。

实验表明,在DeepSeek-VL2、InternVL3.5等模型上,FastMMoE最高可减少55%的FLOPs,同时保留约95.5%的原始性能。

这类方法对于车端、座舱等对延迟和算力敏感的场景很有帮助,让多模态大模型“减负”,在尽量不损失能力的前提下减少计算量,让模型跑得更快。

与此同时,在多模态理解中,语言和视觉之间能否精准对齐,同样决定了模型是否真正“看懂了”。


▲CoV-Align图像区域与语言描述细粒度对齐方法示意

CoV-Align聚焦图像区域与文字描述之间的细粒度对齐。传统方法往往依赖文本引导去聚合图像区域,容易产生冗余的patch-word匹配,计算成本也较高。

CoV-Align提出“内聚视觉语义优先”的思路,先在不依赖文本的情况下,把语义一致的视觉区域聚合起来,再进行跨模态对齐。这样既减少了噪声,也提升了效率。

论文显示,CoV-Align在Flickr30K和MS-COCO等图文评测基准上达到领先表现,并带来3至5倍计算加速,为大规模多模态任务提供了更高效的对齐路径。

最后,Switch-KD关注的是大模型能力如何迁移到小模型。


▲Switch-KD面向视觉语言小模型的知识蒸馏框架

视觉语言模型能力强,但参数规模大、部署成本高;传统知识蒸馏又常常把视觉和语言分开监督,容易造成跨模态知识传递不充分。

Switch-KD提出视觉切换蒸馏框架,将视觉—语言知识统一到共享的文本概率空间中,让小模型能够更有效地学习大模型的多模态理解能力。

论文显示,0.5B TinyLLaVA在3B教师模型指导下,在10个多模态基准上平均提升3.6分,且无需改变模型结构。

对于需要在有限算力下运行的车端边缘计算和智能座舱场景,这类轻量化能力同样关键,可以让小模型也能具备更强的视觉语言理解能力。

三、端到端规划升级 让模型从“看懂场景”走向“形成目标”

相比把感知、预测、规划拆成多个独立模块,端到端方法希望模型能够直接从传感器输入中理解道路环境,并生成可执行的驾驶轨迹。

但现实驾驶场景并不只是简单的图像识别问题:车辆需要理解三维空间关系、交通参与体行为、道路结构变化,以及自身下一步应该达到的短期目标。

理想汽车提出的SGDrive,正是围绕这一问题展开。


▲SGDrive场景、交通参与体、目标层级规划框架

论文指出,SGDrive可以将驾驶理解拆解为更接近人类驾驶认知的层级结构:先理解整体场景,再关注关键交通参与体及其行为,最后形成短期目标并执行动作。

论文将这一结构概括为Scene-Agent-Goal,也就是“场景—交通参与体—目标”的层级认知框架。

这种设计的价值在于,它不是简单地让模型“看图后直接输出轨迹”,而是给模型补上了驾驶任务所需的中间认知过程。


▲SGDrive的构成

人类驾驶员在复杂路口或拥堵道路中,也不会只根据单帧画面做判断,而是会先把握道路整体格局,再判断哪些车辆、行人或障碍物会影响自身行驶,最后形成一个可执行的短期目标。

SGDrive将这种过程结构化地注入模型,使通用视觉语言模型能够围绕驾驶知识进行表示学习,从而更好地服务轨迹规划。

从实验结果看,SGDrive在NAVSIM基准上取得了纯视觉方法中的领先表现,验证了层级化驾驶知识结构对于端到端规划的有效性。

简单来说,SGDrive就是让模型像人类驾驶员一样,先看整体道路环境,再判断关键车辆和行人,最后形成下一步驾驶目标。

四、多模态感知与强化学习 提升环境预判与规划优化能力

在端到端规划中,模型需要从复杂道路环境中形成合理驾驶目标,而要让这一目标真正可靠,前提是系统既要能提前预判环境变化,也要能在不断试错和反馈中优化规划策略。

此次理想汽车入选CVPR的SparseWorld-TC和PlannerRFT,分别从多模态感知和强化学习两个方向切入。

前者关注车辆如何更准确地理解未来场景,后者关注规划器如何在闭环训练中生成更优轨迹。


▲SparseWorld-TC未来三维场景占据预测方法示意

SparseWorld-TC解决的是未来三维场景预测问题。对于车辆而言,仅仅识别当前一刻的道路、车辆和障碍物并不够,更关键的是判断接下来几秒钟内环境会如何演化。

传统方法通常依赖鸟瞰图投影或离散化占据token,这类中间表示虽然便于建模,但也可能带来信息压缩和表达能力限制。

SparseWorld-TC则采用稀疏占据表示,直接从原始图像特征出发,端到端预测未来多帧三维场景占据情况,从而绕开BEV投影和离散token表示的双重瓶颈。

毕竟,真实道路上的风险往往不是静态出现的,而是在车辆、行人、道路结构和自身轨迹共同变化中逐步形成的。

SparseWorld-TC通过轨迹条件化的方式,让车辆提前预测未来几秒周围三维空间会发生什么变化,从而为后续规划提供更可靠的环境预判。

如果说SparseWorld-TC让系统更好地“预判世界”,那么PlannerRFT则进一步关注如何让规划器在反馈中变得更强。

近年来,扩散模型被用于生成更接近人类驾驶习惯的轨迹,但在强化微调过程中,如何生成多样化、场景自适应的轨迹,仍然是一个难点。


▲PlannerRFT扩散规划器强化微调整体框架

PlannerRFT提出面向扩散规划器的样本高效强化微调框架,通过双分支优化同时调整轨迹分布,并自适应引导去噪过程,在不改变原始推理流程的前提下,让规划器更有效地探索高价值轨迹。

更重要的是,PlannerRFT还同步开发了nuMax仿真器,用于支撑大规模并行学习。

论文显示,nuMax的轨迹推演速度相比原生nuPlan提升10倍,为强化学习训练提供了更高效的闭环环境。

如此一来,通过强化学习不断优化轨迹规划器,可以让PlannerRFT在仿真反馈中学会生成更合理、更适应场景的驾驶轨迹。

结语:理想全方位布局自动驾驶

从这12篇入选论文可以看到,理想汽车的技术布局并非停留在单点能力突破,而是围绕智驾构建一套更完整的能力链条。

世界模型负责还原、推演与评估真实道路环境,认知对齐与语言、视觉智能提升理解和推理效率。

端到端规划让模型形成驾驶目标,多模态感知与强化学习则进一步强化环境预判和闭环优化能力。

对于理想汽车而言,这些研究共同指向同一个方向:让车辆不仅能看见世界,更能理解世界、推演未来,并在复杂场景中做出更可靠的行动选择。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。