来自理想汽车的自动驾驶大脑，会"打草稿再改稿"的AI规划系统

IP属地中国·北京 科技行者 时间：2026-05-12 22:29:23

这项由理想汽车（LiAuto）研发团队主导的研究以预印本形式发布于2026年5月，论文编号为arXiv:2605.04647，感兴趣的读者可通过该编号检索完整论文。
一、先说清楚：自动驾驶的"老毛病"是什么
开车这件事，看起来简单，背后其实藏着极度复杂的决策链条。一辆自动驾驶汽车在做出任何一个动作之前，必须先预测出自己接下来几秒钟要走的路径——也就是所谓的"轨迹规划"。现有的AI规划系统有一个由来已久的顽疾：它们会犯两类特别典型的错误。一类是"纵向错误"，就是在速度判断上出问题，要么冲得太猛，要么踩刹车踩晚了，要么该走却磨磨蹭蹭；另一类是"横向错误"，就是方向偏了，车道走歪了、弯道切线不对、甚至压了行驶边界。这两类错误不是随机出现的，它们是有规律可循的，是AI在模仿人类驾驶数据时系统性积累下来的偏差。
以往的规划方案大致分几类。有的系统一旦做出决定就直接执行，没有任何修正机会；有的系统虽然能"回头看"，但修改一次就等于把整个决策过程从头来一遍，代价极高；还有一类连续扩散模型虽然可以并行生成轨迹，但它本质上是在"去噪"，还原的是随机噪声，而不是针对那两类典型驾驶错误进行精准修正。
这就引出了理想汽车研究团队的核心洞察：既然错误是有结构的，修正也应该是有针对性的。如果能让规划系统在出一个"草稿"之后，自己再审查一遍、针对性地改掉那些已知容易出错的地方，整个系统的表现就会大幅提升。这套"打草稿再改稿"的逻辑，就是ReflectDrive-2的核心思想。
二、离散扩散：为什么偏偏选择这种表示方式
要理解ReflectDrive-2的设计，有必要先弄清楚什么是"离散扩散"以及它和其他方法的本质区别。
传统的自动驾驶规划输出的是一段连续的数值轨迹，就像在坐标纸上画出一条光滑曲线。这种连续轨迹很精确，但修改起来很麻烦——你如果想改某一段，就必须重新生成整条曲线，或者额外训练一个专门的"修改网络"。
ReflectDrive-2选择了一种不同的表示方式：把未来8个时间点的驾驶路径离散化为一组"坐标词汇表"里的离散符号（token，可以理解为像文字一样的"字符"）。具体来说，未来4秒内的轨迹被拆分成8个路径点，每个路径点有两个坐标（纵向和横向），一共形成16个离散的"位置字符"。
这种离散化表示的好处在于，它天然支持"局部修改"。如果想改掉某几个位置字符，直接把那几个字符重写就行了，完全不影响其他字符，也不需要任何额外的修改网络。这就好比写文章时，发现某几个词用错了，你可以直接把那几个词改掉，而不必把整篇文章重新写一遍。
在这个基础上，研究团队引入了"掩码离散扩散"机制。简单说，训练时系统会把某些位置字符随机"遮住"（替换成[MASK]），然后学习如何根据上下文把遮住的内容"猜"回来。推理时，系统从一个全部被遮住的序列开始，每一轮"揭开"一批最有把握的字符，经过几轮后就生成了完整轨迹。整个生成过程可以并行进行，效率远高于逐字输出的自回归方式。
三、三个角色同台：决策、草稿、修稿
ReflectDrive-2的完整推理过程可以类比为一个写作团队的工作流程：先由编辑确定写作方向（决策），再由写手起草文章（草稿），最后由校对把文章中的典型错误改掉（修稿）。
第一步是"目标点预测"，相当于编辑确定文章的主题方向。系统会先在俯视视角的地图上预测出若干个"目标位置"候选点，每一个目标点代表一种可能的行为方案——比如保持车道、变道超车、让行、还是以不同路线过弯。系统会用"非极大值抑制"（可以理解为去重，把太相近的候选点合并掉，保留差异明显的几个）筛选出多个行为假设。每一个目标点都会触发一个独立的轨迹生成分支。
第二步是"掩码扩散起草"，就是写手根据确定的主题方向起草正文。系统以确定的目标点为锚，用几轮并行的掩码解码生成完整的16个位置字符轨迹。这个生成过程很快，每轮都把最有把握的字符从[MASK]解锁出来，一般只需要3到5轮就能收敛。
第三步是"AutoEdit自动修稿"，这也是整个系统最独特的部分。AutoEdit直接读取草稿轨迹的具体字符，预测应该把哪些字符换成什么，然后只把置信度较低的字符替换掉，目标点字符保持不变（因为目标点代表的是行为意图，不能随意改变）。关键在于，AutoEdit用的是和草稿生成完全相同的那个神经网络，不需要任何额外的修改网络。这种"一个模型身兼两职"的设计，既节省了计算资源，又让修改和生成在同一个语义空间内进行，保持了一致性。
整个推理链可以表示为：场景理解 → 生成若干目标点候选 → 每个目标点并行生成轨迹草稿 → AutoEdit逐字符修稿 → 选出最优结果执行。
四、为什么光靠训练还不够，必须用强化学习
读到这里你可能会有一个疑问：AutoEdit这个修稿步骤听起来很合理，但直接在训练时教会它就行了，为什么还要专门用强化学习来强化？
研究团队给出了一个非常直白的答案，而且用实验数据做了验证。在只用监督学习训练的情况下，AutoEdit确实能修稿，但效果非常有限——在NAVSIM基准测试中，加上AutoEdit之后分数最多只提升了0.3分（PDMS，这是一个综合评分体系，满分是100分）。换句话说，AutoEdit的能力"存在于模型的权重里"，但在实际推理时几乎没有发挥出来。
为什么会这样？因为监督学习阶段，起草网络和修稿网络是分开优化的。起草网络只负责让草稿尽量接近专家轨迹，修稿网络只负责让修改后的轨迹接近干净轨迹。两者各顾各的，没有人告诉起草网络"你需要给修稿留余地"，也没有人告诉修稿网络"你的修改应该让最终驾驶表现变好"。两个步骤之间的协作是脱节的。
强化学习的作用就是把这条链条"焊死"。具体做法是：把整个"起草+修稿"的过程当作一个完整的决策序列，在序列最末尾才给出奖励信号（就是最终轨迹的驾驶质量得分），然后把这个奖励反向传播，让起草步骤和修稿步骤的每一个字符替换动作都分担这个奖励或惩罚。
结果立竿见影：经过强化学习训练后，AutoEdit带来的提升从0.3分跳升到了1.9分。起草网络学会了主动生成"容易被修稿改好"的草稿——也就是那种自身有点偏差但偏差方向和幅度都在AutoEdit擅长修正的范围内的轨迹。修稿网络则学会了把修改方向对准驾驶表现的提升，而不是单纯降低字符级别的不确定性。两者形成了真正的配合，而不是各自为战。
五、AutoEdit的训练：专门针对"已知错误模式"设计的干扰
AutoEdit能修正错误，但它首先得知道"什么样的错误需要修"。研究团队设计了一套叫做"结构感知扰动"的训练方案，专门针对前面提到的两类典型驾驶错误制造模拟样本。
针对纵向进度错误，训练时会把专家轨迹沿着弧长方向进行缩放：用一个随机系数乘以每个路径点的弧长坐标。当这个系数小于1时，轨迹变短，模拟"走得太保守、速度不足"；当系数大于1时，轨迹变长，模拟"冲过头、刹车太晚"。
针对横向偏航错误，训练时会把整段轨迹在自车坐标系里旋转一个随机角度，模拟"方向偏了"的情况。旋转时整段轨迹一起转，保持了轨迹的平滑性，不会产生不合理的跳变。
把这些人工"弄歪"的轨迹转成离散字符，喂给AutoEdit，训练目标是让它把这些错误的字符序列直接映射回正确的字符序列。这种训练方式让AutoEdit在遇到真实推理时产生的偏差时，能认出"这是我见过的那类错误"，并用针对性的方式修正它，而不是单纯凭借对字符不确定性的估计来盲目修改。
六、空间约束：不能压出车道外
除了上述两个损失函数，研究团队还加入了一个"可行驶区域场损失"，专门防止预测轨迹跑出行驶边界。
具体做法是：根据当前场景的地图信息，生成一个俯视视角的"代价地图"，越靠近不可行驶区域（比如路边、绿化带、对向车道），代价值越高；处于可行驶区域内的点代价为零，同时还有一个容忍缓冲带，给紧贴边界的位置一点宽容。然后把模型预测的轨迹点概率分布和这个代价地图做加权叠加，惩罚那些把高概率质量分配给高代价区域的预测。
这个损失函数不直接约束最终输出的轨迹点坐标，而是在训练时就把"不要越界"的倾向编码进模型的概率分布，让模型从源头上就倾向于在可行驶区域内生成轨迹。实验数据显示，加入这个损失函数后，可行驶区域合规率（DAC）一项从93.9分跳升至97.0分，整体PDMS分从84.8分提升至87.2分，是单个改进项中提升幅度最大的一项。
七、在车上跑起来：四项工程优化让延迟从45ms降到31.8ms
一套再先进的规划算法，如果在车载芯片上跑得太慢，也没有实用价值。理想汽车的研究团队在NVIDIA Thor芯片上对整个推理栈进行了系统性优化，最终把每帧平均延迟从45ms压缩到31.8ms，整体加速1.42倍。
第一项优化是"共享前缀KV缓存复用"。在整个决策—起草—修稿的流程中，目标点预测、轨迹生成、AutoEdit修稿三个阶段都需要"看"同一份场景信息（摄像头图像、导航指令、自车状态）。这份场景信息对应的注意力计算结果（KV缓存）只需要计算一次，三个阶段共用，不用重复计算。这一优化让注意力算子的延迟从0.28ms降至0.08ms，加速了3.5倍。
第二项是"动作缓存回绕与合并重写"。由于掩码扩散每一步都会改变一些字符，与这些字符相关的缓存就会失效。研究团队让缓存指针回绕到共享前缀的边界，只重算那一小块"动作字符块"的缓存，而不是重算整个序列。在多块边界处，他们还把缓存重算和下一块的第一步字符更新合并成一步操作，把边界延迟从14.7ms压缩至11.5ms。
第三项是"动作专家前馈网络"。轨迹字符解码只用到一个受限的字符词汇表，输出序列也很短。研究团队把专门处理轨迹字符的那一层前馈网络的隐藏维度从4096压缩到1024，参数量大幅减少，每个块的前馈延迟从2.47ms降至0.95ms。他们在轨迹质量指标上做了验证：虽然最近距离误差（minSADE）略微上升，但平均误差（meanSADE）和路径级误差指标都有所改善，总体上是可以接受的代价。
第四项是"融合片上字符更新CUDA核"。不管是掩码起草还是AutoEdit修稿，每一步都需要对字符做置信度排序、选择哪些字符提交、更新字符状态。如果在CPU端做这些操作，每一步都要进行设备间的数据同步，开销很大。研究团队把这三个操作合并成一个在GPU上直接运行的CUDA核函数，把每步更新延迟从0.45ms压缩至0.06ms，加速7.5倍，是所有单项优化中加速比最高的一项。
此外还有一项系统级设计叫"交替步解码"。在实际行车中，相邻两帧的场景变化不大，完全没必要每帧都重新从头规划。研究团队设计了一种"全步帧+轻步帧"交替模式：全步帧执行完整的决策—起草—修稿流程；轻步帧则把上一帧的轨迹转换到当前自车坐标系，然后只用AutoEdit做一次快速的"时序细化"。全步帧需要45ms，轻步帧只需要18.6ms，平均下来就是31.8ms。在质量评估中，轻步帧替换全步帧导致综合评分只下降了0.20分，而可行驶区域合规率反而略微提升，说明这种做法在质量上几乎无损。
八、在NAVSIM基准上的成绩单
NAVSIM是一个由学术界和工业界共同建立的自动驾驶闭环规划基准，基于nuPlan数据集。它的核心评分指标叫PDMS（预测驾驶模型评分），是五个子指标的综合：无责任碰撞率（NC）、可行驶区域合规率（DAC）、碰撞时间余量（TTC）、舒适度（Comf）、自车进度（EP）。
在标准单轨迹评估模式下，ReflectDrive-2以仅使用摄像头（不借助激光雷达）为条件，达到了91.0的PDMS分。作为对比，同样仅使用摄像头的其他VLA规划系统中，AutoVLA得到89.1分，DriveVLA-W0得到90.2分，ReCogDrive得到90.8分。使用摄像头加激光雷达的GoalFlow得到90.3分，DiffusionDrive得到88.1分。ReflectDrive-2在不依赖激光雷达的情况下超过了所有这些对比方法。
拆解各子指标，ReflectDrive-2最显眼的优势是"自车进度"这一项，得到89.4分，是所有列出方法中最高的。这意味着车辆在保证安全的前提下，能更积极地完成路程任务，而不是过于保守地停停走走。可行驶区域合规率98.1分和舒适度100分说明车辆始终保持在正确区域内行驶，乘坐体验也很平顺。碰撞相关指标NC和TTC相对不是最优，这也与更积极的进度策略有一定关系。
在"最优6选1"的评估模式下，系统会并行采样6个目标点各生成一条轨迹，然后由评分器选出其中PDMS最高的那条上报。这个模式下ReflectDrive-2达到94.8分，和NAVSIM公布的人类驾驶基准分数（也是94.8分）完全持平。从单条轨迹91.0分到最优选择94.8分之间有3.8分的差距，说明目标点多样性是真实的：不同目标点确实对应不同的行为策略，而不是同一条轨迹的噪声变体。
九、消融实验：每一个组件值多少分
研究团队还做了一系列"去掉某一个零件看还能跑多快"式的消融实验，把每个组件的贡献量化得清清楚楚。
仅用基础掩码扩散损失训练时，PDMS是84.8分。加上可行驶区域场损失后，分数跳到87.2分，提升了2.4分，主要体现在DAC从93.9跳到97.0，说明这个空间约束损失确实有效防止了轨迹越界。在此基础上加入AutoEdit的监督训练，分数再提升0.5分到87.7分。最后加上全轨迹强化学习，分数达到89.1分，其中EP从82.2大幅提升至89.3。再在推理时开启AutoEdit，最终到达91.0分。
从这个链条可以看出，空间约束是提升基础安全性的核心，强化学习是提升进度表现的核心，而AutoEdit的真正价值只有在强化学习充分激活它之后才完整释放。
在推理步数方面，实验显示生成步数和AutoEdit步数都在3到5步时达到最优，再增加步数反而有可能把原本好的草稿"改坏"，这和掩码扩散的基本特性一致：少数几轮足以收敛出一条好轨迹，过度迭代会引入不必要的扰动。
在目标点数量和去重阈值方面，提供更多候选目标点能暴露更多行为假设，评分也更高；去重阈值设在约1.2米最优，太小会保留重复的候选，太大会过滤掉本应有意义的替代路线。
说到底，ReflectDrive-2做的事情并不神秘：它给自动驾驶规划系统装上了一套"先打草稿、再自我审稿"的工作机制，而且用强化学习把打稿人和改稿人的激励对齐了——改稿是为了让驾驶结果变好，打稿是为了给改稿留出有意义的空间。这套逻辑在实验数字上的体现就是：AutoEdit在监督学习阶段只贡献了0.3分的提升，在强化学习介入后贡献了1.9分，整整扩大了六倍多。这个对比数字是整篇论文最核心的那条线索，其他一切设计选择都可以从这里出发理解。
对于普通人来说，这项研究意味着未来搭乘自动驾驶车辆时，车辆在做出路径决策后还会快速自检一遍——就像一个有经验的司机在转动方向盘前会下意识地再确认一下方向是否正确。这种自我纠错能力的引入，或许是自动驾驶系统从"能用"走向"好用"的关键一步之一。
对那些对技术细节感兴趣的读者，研究团队还坦诚地指出了当前系统的局限：轨迹字符的坐标分辨率受词汇表大小限制；当前的干扰训练只覆盖了纵向和横向两类错误，多车交互场景中的让行时机、切入响应等更复杂的错误模式还有待扩展；强化学习用的奖励函数仍然是一个轻量的代理指标，距离真实世界的驾驶目标还有距离。这些开放问题为后续研究指明了方向，也让这套工作的边界变得非常清晰。
有兴趣进一步研究的读者可以通过arXiv编号2605.04647查阅完整论文，其中包含所有公式推导、超参数设置和更详细的实验数据。
Q&A
Q1：ReflectDrive-2的AutoEdit和普通的轨迹优化有什么本质区别？
A：普通轨迹优化通常需要一个独立的"优化网络"或者依赖手工设计的平滑规则，和生成轨迹的主网络是分离的。AutoEdit用的是和起草轨迹完全相同的那个网络，直接在离散字符层面做原位替换，不需要任何额外模块。更关键的区别是，AutoEdit通过强化学习和起草网络联合优化，两者共享同一个驾驶质量奖励信号，形成了真正的协作，而不是串联的两个独立模块。
Q2：NAVSIM的PDMS分数91.0分和人类驾驶的94.8分差距有多大，实际驾驶中意味着什么？
A：PDMS是五个子指标的综合分，单条轨迹评估下两者相差3.8分。在ReflectDrive-2"最优6选1"的模式下，系统已经与人类基准持平。3.8分的差距主要体现在碰撞相关指标（NC、TTC）和极端场景处理上，实际驾驶中对应的是在少数复杂交互场景中的决策保守性或激进性略有偏差，并非系统性安全问题。
Q3：强化学习阶段的奖励信号是怎么计算的，车辆需要真的上路跑吗？
A：不需要真实上路。NAVSIM是一个"数据驱动的非反应式仿真"基准，奖励信号通过回放真实驾驶数据并用规则评估预测轨迹的质量来计算，包括碰撞检测、区域合规、舒适度、进度等维度，整个过程在离线数据集上完成，不依赖闭环仿真器或真实车辆。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

xAI惨遭淘汰！马斯克的人工智能梦，碎了吗？

7999元起！坚果新激光投影值不值？

“兼职”也给期权？看齐海外，MiniMax抢聘经济学、金融等顶尖专家

从579亿到1亿：车企研发账，两种活法

“人工智能教育杭州倡议”发布：呼吁研制人工智能教育应用规范和标准

重庆启动科研人员顶岗培养计划 212名骨干将前往国内外知名高校

全站最新

xAI惨遭淘汰！马斯克的人工智能梦，碎了吗？

7999元起！坚果新激光投影值不值？

“兼职”也给期权？看齐海外，MiniMax抢聘经济学、金融等顶尖专家

从579亿到1亿：车企研发账，两种活法

热门推荐

xAI惨遭淘汰！马斯克的人工智能梦，碎了吗？

7999元起！坚果新激光投影值不值？

“兼职”也给期权？看齐海外，MiniMax抢聘经济学、金融等顶尖专家

从579亿到1亿：车企研发账，两种活法

“人工智能教育杭州倡议”发布：呼吁研制人工智能教育应用规范和标准

重庆启动科研人员顶岗培养计划 212名骨干将前往国内外知名高校

澳洲汽车媒体测试跑了2年的比亚迪海豹：电池健康度仍超95%

京东集团2026年一季度收入达3157亿元

宝付、通联“断供”！“7+4”机构代扣全停，高息助贷迎生死大考

新政落地四十天：AI漫剧迎来第一次泡沫破裂

股价去年来最高涨超10倍，9000亿美元存储巨头或将诞生

乐橙×火山引擎：给安防注入AI能力，让监控从“被动记录”进化为“主动思考”

京东集团一季度营收3157亿元日百和服务业务成新增长极

京东集团一季度营收3157亿元日百和服务业务成新增长极

10万人次的大会、Token飞轮和移动云的新色调