为什么自动驾驶系统在某些场景中越训练越安全,然而在其他场景中却突然出错?长期以来,这种被称为“跷跷板效应”的问题成为自动驾驶安全训练的挑战。
近期,清华大学封硕副教授与美国密西根大学团队用一种“反直觉”的方法解决了这个问题。他们提出了一种密集学习(Dense Learning)方法,从理论上重新审视了自动驾驶训练中的高价值数据。
密集学习方法的核心思想,不是大量学习无效的海量数据,而是主动“学得更少”,即对少部分数据学得更密集、学得更多,而对其他数据则不学或学得更少,进而保留真正有价值的信息密集型样本。
这就像在考试前有效刷题一样,假如你有 1 万道模拟试题,传统方法是把每道题都做一遍,对于提分效果并不显著。与太简单和难度高的题相比,难度适中的题反而更有价值:做对了总结成功的经验,做错了总结失败的教训。这项技术就像是给你配了智能题库,它能从题海中精准筛选出那些“差点就做对了”的关键题目,进而实现成绩的高效突破。
基于增强现实测试平台,该团队使用密集学习方法对 L4 级自动驾驶汽车进行了安全性训练和测试。结果表明,该方法打破了自动驾驶安全性的增长停滞,并将自动驾驶的安全性提升了 1-2 个数量级。
“这项研究对于自动驾驶汽车达到乃至超越人类驾驶员的安全水平,对助力自动驾驶从辅助驾驶更快地走向无人驾驶具有重要意义。”封硕对 DeepTech 表示。
![]()
图丨封硕(受访者)
相关论文以《通过密集学习突破自动驾驶安全性能停滞瓶颈》(Breaking through safety performance stagnation in autonomous vehicles with dense learning)为题发表在 Nature Communications[1]。清华大学自动化系封硕副教授是第一作者,密西根大学刘向宏(Henry X. Liu)教授担任通讯作者。
![]()
图丨相关论文(Nature Communications)
行业困境:为什么 AI 数据“越吃越笨”?
近年来,随着自动驾驶技术的持续发展,安全性已成为制约其大规模商业落地应用的核心瓶颈。为提升自动驾驶的安全性,现有的深度学习方法面临着信号微弱、方差巨大的行业困境,目前的方法通常依赖事故场景数据进行训练。但关键问题在于,如何高效发现自动驾驶中的长尾风险事件?
在此过程中,容易产生一种“跷跷板效应”(Seesaw Effect)。马斯克也曾公开提到过这种效应,他认为找到相关案例和数据投喂给自动驾驶大模型,当完成模型训练后,训练过的数据可能会没问题,但是当将大模型部署到实车上,会在训练以外的方面冒出新的问题。
可以理解这是一种“此消彼长”的关系:自动驾驶模型在部分场景中提升了安全性,但与此同时,在其他场景中相对容易出现安全性退化,这会导致事故如同“按下葫芦浮起瓢”那样并非真正减少。
其根本原因在于,高价值的安全攸关事件具有极高的稀疏度,传统深度学习训练过程中损失函数梯度估计的方差过大,导致无法进行有效学习。
业界一般会采取两种应对方案,第一种方案是高度关注失败数据,例如特斯拉在采集人类驾驶中难以处理场景的方式进行系统训练;第二种方案是采取规则或形式化方法约束系统,如责任敏感安全模型。
但两种方案各有局限性:第一种方案容易因理论支撑不足而导致偏差,第二种方案则应对复杂的现实环境仍具挑战。
破局关键:聚焦高价值“避险”数据
传统思路仅关注事故场景,而该团队提出的密集学习方法利用具有高信息量的安全攸关场景数据,以及可避免的事故场景数据进行训练,并根据这些数据对深度强化学习策略梯度的贡献程度、出现频率进行自适应采样,从而显著提升了训练数据中包含的高价值信息的密度。
![]()
(Nature Communications)
传统深度强化学习基于蒙特卡洛估计来更新策略梯度,但在罕见事件场景下,绝大多数样本的梯度贡献接近于零,在海量噪声中有价值的信息往往容易被淹没。
研究团队通过理论推导分析了跷跷板效应,指出该效应背后的核心与稀疏性灾难密切相关,并通过一套算法给出高价值数据的定义以及自动生成与筛选高价值样本的方法。根据推导结果,最优的训练数据分布应满足两个条件:一是数据对策略梯度的贡献非零,二是在现实世界中的出现频率。
我们经常说“失败乃成功之母”,但研究团队发现,在自动驾驶领域更适用的一句话是“成功乃成功之母”或者“差点成功是通往成功的基石”:“失败”的数据训练不仅可能遇到瓶颈,甚至还可能导致原本表现良好的场景性能下降。原因在于,单纯堆砌事故数据会让模型过度拟合高风险场景,反而在常规场景中表现不佳,这正是“跷跷板效应”的体现。
也就是说,不能只用表现不好的案例进行数据训练,真正高价值的是那些可避免的事故或可避免的风险,以及边缘事件,即险些发生的事故的数据。尤其是,那些自动驾驶系统无论如何也学不会如何避免的事故场景,将其它用于模型训练的作用并不大。
为此,研究人员设计了包括三个层级的数据密化机制,不仅大幅提升了训练数据的信息密度,在保证策略梯度估计无偏性的前提下,密集学习方法还显著降低了训练的方差,成功突破了自动驾驶安全性能的停滞瓶颈。
应用验证:从虚拟仿真到现实街道,显著降低事故率
有了高价值数据,接下来的问题就是如何用它们来进行自动驾驶的数据训练。如果直接用于数据训练,仍然难逃“跷跷板效应”。
2023年,封硕与合作者首次揭示了自动驾驶汽车安全性挑战背后的科学难题——稀疏度灾难(Curse of Rarity),并以封面论文形式发表于Nature。相关研究开辟了基于生成式 AI 的安全性加速测试与可持续学习框架,将仿真与实车测试速度提高 3 至 5 个数量级。并且,有可能对现有的强化学习、监督学习、预训练等方向的方法理论带来冲击。
在此基础上,该团队对上述自动驾驶测试方法进行了系统性迭代推广,通过密集学习聚焦高价值数据,让自动驾驶模型在持续学习中不断提升安全性。研究人员通过融合负责自动驾驶的模块,为模型打造了一个“AI 安全教练”SafeDriver。
当发现驾驶有问题或有风险时,它会接管或干预基础自动驾驶系统,其余时刻则保持“沉默”。重要的是,这种干预并非靠规则设计,而基于密集学习的数据训练。
结果显示,该方法可将原本安全事故率为 10-5 的 AI Agent,再降低 1 到 2 个数量级。这为打造更高效的数据闭环,以及实现自动驾驶持续进化提供了一种可行路径。
![]()
(Nature Communications)
研究团队在仿真和实车方面的实验证明,SafeDriver 可与多种 AI Agent 有效配合。从仿真实验来看,整体碰撞率和可避免事故率都表现出大幅度降低。其中,高速场景降低 86.3%,城市场景降低 98.0%,环岛场景降低 74.5%;在城市 SUMO 模型测试中,可避免碰撞率降幅最高可达 98.9%,提升幅度约 2 个数量级。
为验证方法的泛化能力,研究团队还在 nuPlan 基准测试上进行了评估测试。以 SOTA 级 PDM-Hybrid 模型为基础,SafeDriver 在预测到 2 秒内碰撞时接管控制。结果显示,总碰撞数降低了 21.7%,自动驾驶责任碰撞则降低 29.2%。
在实车测试方面,研究人员在密西根大学的 Mcity 测试场进行了混合现实实验,通过融合虚拟背景车辆与真实道路基础设施,构建出高保真的安全关键场景。从结果来看,实体车辆碰撞率从 1.44×10⁻⁶ 降低到了1.42×10⁻⁷,降幅达 90.1%;可避免事故降低幅度则实现了 98.8%。
从仿真与实车的测试结果中可以看到,SafeDriver 的作用相当于教会了 AI学会在自动驾驶中避险,为未来自动驾驶真正接管和帮助人类开车奠定了基础。封硕指出,Scaling Law 也适用于这项技术,如果 SafeDriver 能有更多的数据、更大的网络、更长的训练时间,安全事故率可能进一步降低。
在未来的研究中,该团队计划与车企密切合作,将自动驾驶安全做到量产实车,推动它从辅助驾驶向无人驾驶发展。“这项研究对解决跷跷板效应具有显著的价值,它不仅可应用于自动驾驶领域,未来还有望进一步拓展至具身智能领域以及安全关键系统(例如医疗机器人、航空航天)的AI训练中。”封硕表示。
参考资料:
1.https://www.nature.com/articles/s41467-026-69761-x
排版:胡莉花





京公网安备 11011402013531号