理想狂砸150亿研发！连甩12篇顶会论文，把自动驾驶的“家底”都亮出来了

IP属地中国·北京 车东西 时间：2026-06-08 20:23:59

车东西（公众号：chedongxi）
作者｜ Janson
编辑｜志豪
理想汽车12篇论文入选计算机视觉顶会CVPR！
车东西6月8日消息，日前，计算机视觉与模式识别领域的顶级会议CVPR 2026召开，理想汽车12篇论文入选，同时还有多篇论文参与了现场讨论和发表。
作为与ICCV、ECCV并称为计算机视觉三大顶会，一次入选12篇论文的含金量不言而喻。
此次理想汽车入选的12篇论文，覆盖世界模型、端到端规划、多模态感知、强化学习、认知模型、语言与视觉智能等关键方向。
可以说，理想汽车的智能化竞争正在从产品功能，进一步深入到底层模型、仿真、安全和推理能力。
而这背后，也是理想汽车近几年持续加码研发的结果。
据理想汽车方面透露，截至2026年一季度末，理想汽车已连续5个季度保持30亿元左右的研发投入，相当于理想汽车五个季度就投入了约150亿的研发费用，2025年全年研发费用也是达到113亿元。
近5年来，理想汽车已在CVPR、ICCV、ECCV、NeurIPS、SIGGRAPH、IROS、ICRA等顶级会议和期刊上发表近百篇论文。
不过，相比单纯看“发了多少篇”，更值得关注的是，这12篇论文分别解决了什么问题。
对此，车东西拆解了这12篇论文，帮你总结理想汽车在自动驾驶底层技术上的四条主线。
一、拿下世界模型四项突破仿真与安全基座升级
在自动驾驶领域，世界模型要解决的，是车辆能否在行动前先理解和推演这个世界。
此次理想汽车共有四篇世界模型方向论文入选CVPR 2026，分别从深度估计、三维重建、交通规则认知评估和安全风险预判四个层面展开，形成了从“还原真实世界”到“理解交通规则”，再到“预判危险后果”的技术链路。
道路结构会如何变化，其他交通参与体可能怎样运动，一条轨迹会不会带来风险，复杂交通规则之间又该如何取舍。
对面向真实道路的自动驾驶来说，世界模型不仅是仿真的基础，也是提升安全性和长尾场景处理能力的重要底座。

▲InfiniDepth高精度连续深度估计方法示意
在几何理解层面，InfiniDepth（一种高精度连续深度估计方法）关注的是车辆理解三维世界时最基础也最关键的问题——深度。
传统深度估计方法通常在固定分辨率的图像网格上预测结果，容易受分辨率限制，细小结构和几何边界不够精细。
InfiniDepth将深度表示为连续的神经隐式场，使模型可以在任意二维坐标上查询深度，从而支持更高分辨率、更细粒度的深度估计，并在精细区域和新视角合成任务中表现出优势。
对于车辆场景而言，这类能力有助于更准确地恢复道路、车辆、障碍物等三维结构，为后续仿真和环境建模提供更可靠的几何基础。
如此一来，车辆能更精细地判断画面中每个物体离自己有多远，为三维环境还原和仿真建模打基础。

▲Unposed-to-3D真实驾驶图像生成三维车辆能力
在仿真资产构建层面，Unposed-to-3D（一种真实驾驶图像生成三维车辆能力）解决的是另一个现实问题，高质量三维车辆资产从哪里来。
论文指出，现有三维车辆生成方法往往依赖合成数据训练，和真实道路图像存在域差距，生成结果还可能存在姿态不统一、尺度不准确等问题，难以直接放入驾驶仿真环境。
Unposed-to-3D通过两阶段框架，从真实驾驶图像中学习三维车辆重建，并引入尺度感知和外观协调模块，使生成车辆在尺寸、姿态和光照外观上更适合真实驾驶场景仿真。
这意味着，未来构建大规模、多样化的仿真交通环境，可以更少依赖人工建模，更高效地从真实世界中获取可用资产。

▲DriveCombo复杂交通规则推理评测框架
世界模型不仅要“看得准”“建得真”，还要能理解交通世界里的规则，对此，理想发布的DriveCombo正是面向复杂交通规则推理提出的评测基准。
论文指出，已有交通规则评测往往停留在单一规则场景，例如识别交通标志或简单路权判断，但真实驾驶中更常见的是多条规则同时出现，甚至发生冲突。
DriveCombo构建了文本与视觉结合的组合式交通规则推理基准，并提出五级认知阶梯，从单规则理解逐步提升到多规则整合和冲突消解。
对14个主流多模态大模型的评估显示，随着任务复杂度提升，模型性能会系统性下降，尤其在规则冲突场景中更明显。
简单说，DriveCombo不是一个驾驶模型，而是一套“考试题”，用来测试多模态大模型能不能理解复杂交通规则，尤其是多条规则冲突时该怎么判断。

▲AD-R1面向安全预判的公正世界模型整体框架
除此之外，安全预判则是世界模型走向闭环训练的关键一步。AD-R1聚焦端到端驾驶强化学习中的一个核心难题：如果世界模型只在安全专家数据上训练，它可能会形成“乐观偏差”——面对危险轨迹时，仍然倾向于预测一个看似安全的未来，例如忽略碰撞或道路边界风险。
AD-R1提出“公正世界模型”的概念，通过反事实合成生成碰撞、驶离道路等风险场景，让模型学会真实预测危险后果，并将其作为闭环强化学习中的内部评论器，为候选动作提供安全反馈。
换句话说，模型不只是学习“好司机怎么开”，也要学会“错误动作会导致什么后果”。这对于提升系统在长尾风险场景下的可靠性，具有直接意义。
如此一来，世界模型不再只是生成逼真的画面或场景，而是在向更完整的“可推演、可评估、可用于训练”的智能系统演进。
这四项研究共同构成了理想汽车在世界模型方向的系统性布局，也为智驾从“看见世界”走向“理解世界、推演世界并规避风险”提供了更坚实的技术支撑。
二、认知对齐与语言、视觉智能让模型推理更准更快
在训练侧世界模型是关键，而在推理侧，认知对齐、语言、视觉智能也是十分重要的一环。
要让车辆从“看见道路”进一步走向“理解道路”，模型需要具备的不只是识别能力，还包括连续认知、语言理解、动作生成以及高效部署能力。
如何让模型不只是“识别得准”，而是能够连续地理解、准确地对齐、高效地推理，并最终可靠地执行是关键。
针对上述问题，理想拿出了5篇关键研究。CogDriver提升驾驶决策的时序稳定性，LinkVLA打通语言理解与动作生成，FastMMoE降低多模态大模型推理成本，CoV-Align提升视觉与语言的细粒度对齐效率，Switch-KD则让大模型能力更容易迁移到轻量模型。
它们共同构成了理想汽车在认知模型、语言智能和视觉智能方向的技术积累，也让车辆从“看见和判断”进一步走向“理解、推理和行动”。

▲CogDriver提升驾驶决策时序稳定性的方法示意
在驾驶认知层面，CogDriver关注的是当前视觉语言模型在时序理解上的短板，有助于让系统更好的理解驾驶场景。很多模型处理驾驶场景时，更像是在逐帧“看图说话”，缺乏对历史状态和持续意图的记忆，容易造成决策抖动，难以完成复杂连续动作。
CogDriver引入“认知惯性”机制，通过大规模视觉—语言—动作数据集提供时序监督，并在智能体中加入稀疏时序记忆模块，让模型能够形成更稳定的内部状态。
实验显示，CogDriver在Bench2Drive闭环驾驶得分上提升22%，在nuScenes上将平均轨迹误差降低21%，说明时序一致性对于提升规划稳定性具有直接价值。
不难看出，CogDriver就是给驾驶模型加入“记忆”和“惯性”，让它做决策时不再只看当前一帧，而是结合前后状态保持判断稳定。
如果说CogDriver解决的是“连续理解”的问题，那么LinkVLA更进一步面向“理解之后如何行动”。
视觉语言动作模型被认为是端到端驾驶的重要方向，但现有方法常常存在两个问题：一是语言指令和动作输出之间对不齐，二是逐步生成动作序列导致推理效率较低。

▲LinkVLA打通语言理解与动作生成的整体框架
LinkVLA通过把语言和动作统一到共享离散码本中，从结构上强化跨模态一致性；同时引入动作理解辅助任务，让模型既能从语言到动作，也能从轨迹反推语义描述。
它还采用由粗到细的两步生成方式替代传统逐步解码，在闭环驾驶基准中提升指令遵循和驾驶表现的同时，节省了86%的推理时间。
如此一来，通过LinkVLA就可以让系统延迟更低，更聪明。
模型变得更聪明之后，另一个现实问题是：能不能跑得更快、更轻。

▲FastMMoE多模态大模型免训练加速方法示意
FastMMoE面向MoE架构多模态大模型提出免训练加速框架，从路由行为入手，一方面减少视觉Token不必要的专家激活，另一方面根据路由概率分布识别并裁剪冗余视觉Token。
相比单纯从注意力权重判断哪些Token可以删除，FastMMoE更贴近MoE模型本身的计算机制。
实验表明，在DeepSeek-VL2、InternVL3.5等模型上，FastMMoE最高可减少55%的FLOPs，同时保留约95.5%的原始性能。
这类方法对于车端、座舱等对延迟和算力敏感的场景很有帮助，让多模态大模型“减负”，在尽量不损失能力的前提下减少计算量，让模型跑得更快。
与此同时，在多模态理解中，语言和视觉之间能否精准对齐，同样决定了模型是否真正“看懂了”。

▲CoV-Align图像区域与语言描述细粒度对齐方法示意
CoV-Align聚焦图像区域与文字描述之间的细粒度对齐。传统方法往往依赖文本引导去聚合图像区域，容易产生冗余的patch-word匹配，计算成本也较高。
CoV-Align提出“内聚视觉语义优先”的思路，先在不依赖文本的情况下，把语义一致的视觉区域聚合起来，再进行跨模态对齐。这样既减少了噪声，也提升了效率。
论文显示，CoV-Align在Flickr30K和MS-COCO等图文评测基准上达到领先表现，并带来3至5倍计算加速，为大规模多模态任务提供了更高效的对齐路径。
最后，Switch-KD关注的是大模型能力如何迁移到小模型。

▲Switch-KD面向视觉语言小模型的知识蒸馏框架
视觉语言模型能力强，但参数规模大、部署成本高；传统知识蒸馏又常常把视觉和语言分开监督，容易造成跨模态知识传递不充分。
Switch-KD提出视觉切换蒸馏框架，将视觉—语言知识统一到共享的文本概率空间中，让小模型能够更有效地学习大模型的多模态理解能力。
论文显示，0.5B TinyLLaVA在3B教师模型指导下，在10个多模态基准上平均提升3.6分，且无需改变模型结构。
对于需要在有限算力下运行的车端边缘计算和智能座舱场景，这类轻量化能力同样关键，可以让小模型也能具备更强的视觉语言理解能力。
三、端到端规划升级让模型从“看懂场景”走向“形成目标”
相比把感知、预测、规划拆成多个独立模块，端到端方法希望模型能够直接从传感器输入中理解道路环境，并生成可执行的驾驶轨迹。
但现实驾驶场景并不只是简单的图像识别问题：车辆需要理解三维空间关系、交通参与体行为、道路结构变化，以及自身下一步应该达到的短期目标。
理想汽车提出的SGDrive，正是围绕这一问题展开。

▲SGDrive场景、交通参与体、目标层级规划框架
论文指出，SGDrive可以将驾驶理解拆解为更接近人类驾驶认知的层级结构：先理解整体场景，再关注关键交通参与体及其行为，最后形成短期目标并执行动作。
论文将这一结构概括为Scene-Agent-Goal，也就是“场景—交通参与体—目标”的层级认知框架。
这种设计的价值在于，它不是简单地让模型“看图后直接输出轨迹”，而是给模型补上了驾驶任务所需的中间认知过程。

▲SGDrive的构成
人类驾驶员在复杂路口或拥堵道路中，也不会只根据单帧画面做判断，而是会先把握道路整体格局，再判断哪些车辆、行人或障碍物会影响自身行驶，最后形成一个可执行的短期目标。
SGDrive将这种过程结构化地注入模型，使通用视觉语言模型能够围绕驾驶知识进行表示学习，从而更好地服务轨迹规划。
从实验结果看，SGDrive在NAVSIM基准上取得了纯视觉方法中的领先表现，验证了层级化驾驶知识结构对于端到端规划的有效性。
简单来说，SGDrive就是让模型像人类驾驶员一样，先看整体道路环境，再判断关键车辆和行人，最后形成下一步驾驶目标。
四、多模态感知与强化学习提升环境预判与规划优化能力
在端到端规划中，模型需要从复杂道路环境中形成合理驾驶目标，而要让这一目标真正可靠，前提是系统既要能提前预判环境变化，也要能在不断试错和反馈中优化规划策略。
此次理想汽车入选CVPR的SparseWorld-TC和PlannerRFT，分别从多模态感知和强化学习两个方向切入。
前者关注车辆如何更准确地理解未来场景，后者关注规划器如何在闭环训练中生成更优轨迹。

▲SparseWorld-TC未来三维场景占据预测方法示意
SparseWorld-TC解决的是未来三维场景预测问题。对于车辆而言，仅仅识别当前一刻的道路、车辆和障碍物并不够，更关键的是判断接下来几秒钟内环境会如何演化。
传统方法通常依赖鸟瞰图投影或离散化占据token，这类中间表示虽然便于建模，但也可能带来信息压缩和表达能力限制。
SparseWorld-TC则采用稀疏占据表示，直接从原始图像特征出发，端到端预测未来多帧三维场景占据情况，从而绕开BEV投影和离散token表示的双重瓶颈。
毕竟，真实道路上的风险往往不是静态出现的，而是在车辆、行人、道路结构和自身轨迹共同变化中逐步形成的。
SparseWorld-TC通过轨迹条件化的方式，让车辆提前预测未来几秒周围三维空间会发生什么变化，从而为后续规划提供更可靠的环境预判。
如果说SparseWorld-TC让系统更好地“预判世界”，那么PlannerRFT则进一步关注如何让规划器在反馈中变得更强。
近年来，扩散模型被用于生成更接近人类驾驶习惯的轨迹，但在强化微调过程中，如何生成多样化、场景自适应的轨迹，仍然是一个难点。

▲PlannerRFT扩散规划器强化微调整体框架
PlannerRFT提出面向扩散规划器的样本高效强化微调框架，通过双分支优化同时调整轨迹分布，并自适应引导去噪过程，在不改变原始推理流程的前提下，让规划器更有效地探索高价值轨迹。
更重要的是，PlannerRFT还同步开发了nuMax仿真器，用于支撑大规模并行学习。
论文显示，nuMax的轨迹推演速度相比原生nuPlan提升10倍，为强化学习训练提供了更高效的闭环环境。
如此一来，通过强化学习不断优化轨迹规划器，可以让PlannerRFT在仿真反馈中学会生成更合理、更适应场景的驾驶轨迹。
结语：理想全方位布局自动驾驶
从这12篇入选论文可以看到，理想汽车的技术布局并非停留在单点能力突破，而是围绕智驾构建一套更完整的能力链条。
世界模型负责还原、推演与评估真实道路环境，认知对齐与语言、视觉智能提升理解和推理效率。
端到端规划让模型形成驾驶目标，多模态感知与强化学习则进一步强化环境预判和闭环优化能力。
对于理想汽车而言，这些研究共同指向同一个方向：让车辆不仅能看见世界，更能理解世界、推演未来，并在复杂场景中做出更可靠的行动选择。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

英国医学会：误导性的“AI医生”会对公共安全构成巨大威胁

首个鸿蒙PC开源AI统一工作台JiuwenSwarm，办公编程一站式搞定

Meta CEO扎克伯格：美国不应靠封禁中国AI模型来“取得领先”

苹果回应称针对月租iPhone计划逾期欠款用户，不会限制相关功能

台积电：日本地震未对JASM熊本晶圆厂人员与建筑安全造成影响

科技豪华智能轿车！比亚迪腾势Z9S预售定档：对标小米SU7

全站最新

2026上半年：进口车风光不再，中国品牌凭何改写汽车市场格局？

英国医学会：误导性的“AI医生”会对公共安全构成巨大威胁

首个鸿蒙PC开源AI统一工作台JiuwenSwarm，办公编程一站式搞定

Meta CEO扎克伯格：美国不应靠封禁中国AI模型来“取得领先”

热门推荐

中石油接手英大期货公司

AI录音设备形态大爆发：卡片、戒指、耳机争锋，谁能解锁个人记忆新入口？

吴恩达再启AI教育新征程：LearnVector获1亿美元投资，将推个性化学习产品

保时捷上半年交付量同比下降16.5%，营业利润增至13.48亿欧元

英国医学会：误导性的“AI医生”会对公共安全构成巨大威胁

首个鸿蒙PC开源AI统一工作台JiuwenSwarm，办公编程一站式搞定

Meta CEO扎克伯格：美国不应靠封禁中国AI模型来“取得领先”

苹果回应称针对月租iPhone计划逾期欠款用户，不会限制相关功能

台积电：日本地震未对JASM熊本晶圆厂人员与建筑安全造成影响

科技豪华智能轿车！比亚迪腾势Z9S预售定档：对标小米SU7

5米大体量车身！广汽埃安全新车系Ray登场：首款车型命名Ray 7

苹果呼吁用户尽快完成设备升级：覆盖iPhone、Mac、Vision Pro

理想i6自动泊车“反复折腾”仍入库失败，高管解释原因

雷军称小米现在出增程车“并不晚” 李想回应：欢迎加入

马斯克两个核心资产，正在同时遭遇市场拷问