当前位置: 首页 » 资讯 » 科技头条 » 正文

对话任少卿:2025 NeurIPS 时间检验奖背后,我的学术与产业观

IP属地 中国·北京 雷峰网 时间:2025-12-05 20:16:16



NeurIPS,被誉为「AI界的奥斯卡」,是人工智能领域的全球年度风向标。

作者丨马广宇

编辑丨李雨晨

12月4日,任少卿、何恺明、罗斯·吉尔希克(Ross Girshick)、孙剑凭借“Faster R-CNN ”(快速区域卷积神经网络架构)荣获2025年神经信息处理系统大会(NeurIPS)时间检验奖。

NeurIPS(神经信息处理系统大会),是人工智能与机器学习领域最具影响力的国际顶级学术会议,在AI学科领域排名第一,被誉为“AI界的奥斯卡”,是人工智能领域的全球年度风向标。

NeurIPS时间检验奖是人工智能领域最具影响力的奖项之一,专门表彰经过十年时间检验、对学科发展产生深远影响的奠基性工作。

过去三年,该奖项授予包括诺贝尔奖得主杰弗里·辛顿(Geoffrey Hinton)、图灵奖得主约书亚·本吉奥(Yoshua Bengio)、OpenAI联合创始人兼首席科学家伊尔亚·苏茨克维(Ilya Sutskever)等在内的国际顶尖学者。

“Faster R-CNN ”是在2015年由中国学者任少卿、何恺明、孙剑主导,联合美国人工智能科学家罗斯·吉尔希克(Ross Girshick)共同发表,这一新型网络架构能将物体检测效率提升10倍以上,首次开创了端到端实时精准目标的检测模式。

目前,这一文章已经被学术引用超9.8万次,第一作者任少卿,是华人作为第一作者在该会议上发表的学术引用量最高的文章,同时也是AI检测领域全球最高被引论文。

十多年的时间,这一模型的核心思想已经被深度融入到人工智能的基础技术基因当中,并成为了驱动自动驾驶、医疗影像、安防监控、工业检测、卫星遥感等国计民生和经济发展关键领域的核心。

任少卿与Faster R-CNN中的合作者何恺明(现MIT副教授)、孙剑(前旷视科技首席科学家)有着紧密的合作关系,此前还发表过深度残差网络框架ResNet,该文章已经成为21世纪全球最高被引论文。

在任少卿获奖之前,雷峰网曾在2025年下半年与其进行了深度对话,雷峰网作了不改变原意的编辑:

01

任少卿与孙剑、何恺明的故事

雷峰网:孙剑老师是您的导师,当时有过什么事情让您印象深刻?

任少卿:我印象深刻的是,孙剑老师当时比较坚持“simple but work”,真正认可并理解这件事是一个循序渐进的过程,也是日常交流中慢慢形成的共识,比如看别人的工作、讨论paper、组内评审paper时,孙老师会给一些深刻的指导,逐渐我也理解到了“simple but work”。


孙剑

实际上我当时写的第一篇paper就不太simple,虽然是熬了很多个夜写完,但到最后还是决定不投了。当然现在回头看,那个paper基本上就是在别人的工作上做做a+b,确实没太大的意义。

“Simple but work”实际上是跟孙老师的逻辑和理念相关的,这是一个挺难的追求。只能说做一些更核心的事,就需要更好的远见,更好的品位,以及坚持,这三个东西缺一个都不行。

(孙剑是国内AI顶级峰会 GAIR 2017、2018、2019的三届讲者。在会场间隙,孙剑对观众分享了获奖论文 Faster R-CNN 的理解与灵感。)

雷峰网:您觉得何恺明对你的最大影响是什么?你们合作的怎么样?

任少卿:其实因为我们合作的时间最长。每天早上到公司,先看看结果,接着就一起开始交流,从 11 点开始,到 12 点吃饭,吃饭时继续讨论,到下午 2 点开始各自干活,然后下午5点又开始讨论,然后吃晚饭,这个节奏会让我们很开心,因为每天都有新的实验结果在推动和交流。那时候深度学习也才刚开始,一个小团队这样去看其实效率很高。

何恺明非常专注,他基本上不想别的事儿,只关注现在的这些研究问题,怎么创新,我觉得他几乎 100% 的精力都在这上。

他在微软亚洲研究院的时候,就住在旁边一栋楼,走路一分钟,两分钟都不要。

何恺明是很善于找方向、找到问题,然后找突破的学者,他花了巨量的时间在上面,然后去建立相应的思维的架构,只有有思维架构才能去找相应的突破。


何恺明

雷峰网:那时候选择深度学习,大家都还坚决吗?为什么觉得这是个方向?

任少卿:肯定是先试,看到了可能性之后才去坚持。

为什么是这个方向,第一个逻辑是,从方法的角度来说,它有创新,看到了新的可能性。第二是当时已经有一些结果和进展了。第三是拿这个复现,能看到结果不是trick的,而是有一定泛化能力的结果。这些东西都有了之后,我们和业界才看到了可能性。

一个新方向首先上限要高,其次现在已经达到的结果是真的,这不是一个trick,或者不是只在某一个小范围内work的东西。这几个点都验证了之后,那其实就认为这个方向是可扩展的。

雷峰网:Faster R-CNN到底解决了AI领域的什么问题?

任少卿:Faster R-CNN用今天的词,解决的是自动驾驶端到端的问题。今天大家说端到端,就是因为自动驾驶的任务,之前是拆成一节一节的,就叫作感知、规划、控制。而在物体检测这个任务上,之前也没有一个能一体化的解决方案,要把它分成两步,或者三步。

这两步是什么呢?第一步,要在图像上去找一些可能的candidate,然后再去对这些candidate做分类。理论上每张图如果穷举,其实有百万种以上的选择。第二步,每个框都去判断一下里面是不是有物体,这个计算量很大。所以之前的物体检测的做法是分为两步,与之前的自动驾驶一样。

Faster R-CNN解决的,就是一个网络直出,按今天的话说就是端到端,端到端解决什么问题呢?首先它的效率变高了,之前的检测器,可能一秒钟、两秒钟、三秒钟才能刷一张图。Faster R-CNN之后,变成了一个实时的10Hz、20Hz、30Hz这样的状态。实时对于应用就很不一样了,它就能开始处理视频,这是对产业最大的一个突破。那其次因为它端到端,端到端之后就快、延迟就低,所以实际上效果就提升了。所以Faster R-CNN本质上是解决了物体检测任务的端到端。

02

加入蔚来:从零开始的团队和自研芯片

雷峰网:您是什么时候加入的蔚来,当时主要做了什么事?彼时蔚来又处于什么样的阶段?

任少卿:我大概是2020年8月十几号入职,那个时候就是先搭团队。

蔚来第一代车是Mobileye方案。到了20年前后,实际上有两个争论。第一个争论是L2和L4到底有多大差异,有个说法是L2永远做不了L4;第二个是要不要全栈自研,当时蔚来的选择是全栈自研L2的产品,支持L3和L4。

当时我们决定了全栈自研,然后再去选芯片,看哪个芯片是靠谱的、能用的。从2020年8月到2020年底,开始建团队,核心的人四五个月都到位,到七八个月的时候,团队就算比较到位了。急着干活的一个原因是时间:我们要量产的车是2022年3月份,而2020年8月由于方案都不同了,我们几乎一切从“零”开始,集群、标注、工具链这些当时都没有。

在组建团队的同时,我们也在并行选芯片,与英伟达合作,Orin芯片我们提前量产了半年。最终蔚来全球首个量产,也是截止到今天车上最复杂的一套ADC(自动驾驶域控制器)架构,所以那一年多很有意思。

雷峰网:当时选择Orin是一件很有挑战性的事?

任少卿:我入职的时候是2020年8月,2022年3月量产在中国的Orin方案,半年之后量产欧洲的方案,而蔚来的第二代车,是全球第一个量产Orin芯片,同时也是全球第一个量产高线束激光雷达的车型,所有的事情都是并行做的,当时的挑战就很大。

对于蔚来来说,干了三件一般人不敢干的事。第一代车Mobileye的EyeQ4方案,全球第一个量产,第一个量产要踩很多坑。第二代就是全球首个量产英伟达Orin方案,还搞了4个芯片,是最复杂的一个架构。第三代是自研芯片量产。所以每一代的量产,都是非常大的挑战,斌哥有意愿、有信念去做这件事。

所以蔚来相应的量产、对于新的芯片适配和调整的团队,应该是世界顶尖的,因为没有人连着干过这几件事。

雷峰网:Orin那时候什么问题比较多?

任少卿:当时Orin是一个新的芯片,对英伟达也只是第二代量产,新的芯片就会面临很多新问题:比如算力比上一代增大了8倍多、新的架构、新的制程,所以从硬件底层开始,它的散热、功耗、热稳定性、是不是会丢东西,这都是最基础的N个坑。

蔚来在此之前并没有做过英伟达体系的量产,先不说这些硬件底层的问题,上层所有AI、CPU、调度相关的工具链全部都要重新来。这些问题还都在一个不稳定的基础上,就得搭上面那一层,底下那层还在丢帧,上面那层就得看AI工具链怎么弄。

不能一层一层搭,是因为时间根本来不及,我们实际拿到芯片,离量产只有6-7个月。所以我们的团队肯定是世界顶级的,是打仗打出来的。

雷峰网:定义芯片这件事您参与了吗?

任少卿:我们是需求方,到底要做什么样的东西我们这边要先出个方案,然后和芯片团队大家一起从需求到技术到架构进行梳理。

在我们用了OrinX之后,也有了一些自己的理解,包括技术发展的理解。比如说在2021年的时候我们就觉得后面Transformer会用得更多一些,那时候这不是一个特别common的认知,当时业内大部分都还是CNN。

雷峰网:你是很坚定的,因为你是这个信徒。

任少卿:其实现在看结果就知道。Transformer对内存的大小、内存开发的要求比CNN要高。我们现在看芯片,蔚来的芯片是带宽最高的,而Transformer如果成为主流,它对内存带宽的要求远高于CNN,芯片的带宽是很重要的事,这也是我们对方向的判断。

如果之后芯片需要支持L3、L4更高级别的自动驾驶,芯片的冗余也是非常重要的事情。以前芯片它做不到热冗余或者温冗余,也就是说无法在100毫秒以内做到两个芯片切换,这是硬件限制的,所以我们自研芯片的时候,在芯片里面预埋了热备的能力,百毫秒以内两个芯片切换用户无感。这些东西都是为什么要做芯片的技术原因。

03

从数据,到价值,再到“三天迭代一次”

雷峰网:在当时自研芯片量产进程中,您还做了哪些事?为什么要做?

任少卿:在2020年到2022年之间,其中比较重要一环是去建设很多有特点的工具链和体系。

这些基本能力中,很重要的一件事是数据。数据其实是我们从20年开始在蔚来前两年主要花精力的地方,这和我为什么到蔚来也相吻合。我们一直是说解放精力、减少事故,有两个很核心的东西,第一是需要离用户更近,才能有更快速的产品级反馈;第二是需要有更多真实的量产数据。这属于两个框架性的层面。

再往下一层看,数据到底是什么?2019年、20年的时候,行业有一个说法,大意是:供应商就应该能拿到所有主机厂的数据,因为大家觉得云端的数据只需要copy case,花点带宽、流量的费用,几乎是没有成本。

但实际上从2020年开始,我们就认为拷贝的数据没有特别大的价值,因为数据最重要的事情是corner case,这些corner case是相比于原来的系统。如果原来是一套规则系统,那就相比这套规则系统,如果原来是个模型,那就相比模型。所以数据取决于这个模型,模型A对应的数据和模型B对应的数据,是不一样的。

所以数据不再是说给谁都是同样的价值,而是针对你的模型所挑出来的数据是不是有价值。反推过来,数据是依赖你挑选的精准程度,而挑的过程又消耗算力,所以模型的根本就变成了对算力的消耗。算力又可以理解为是一个不可再生资源,因此数据就变成了高消耗、由不可再生资源换来的结果。

这样的认知让我们意识到数据其实是对算力的调用,所以我们做的第一个系统是一个对云端算力调用灵活标准的系统,这套系统不只是云端,包括车端,然后在这套系统上再去做大数据体系,我们叫它数据闭环系统。

还有一点,按刚才我们聊到的逻辑,数据的最终目的是迭代模型,而迭代模型这件事,实际上汽车领域之前的效率不够高的,比如Tier 1,半年或者一年才迭代一版。哪里迭代效率高呢?是互联网行业,大家用“AB test”,在用户无感的时候,已经迭代好多版本了。那做车能不能学互联网厂商做“AB test”呢?可以,蔚来就建立了一整套灵活调度算力的系统,蔚来可以在算力系统上建立“AB test”,整体的迭代也可以变到一周、两周、一个月、一个季度,可以完整的去做测量模型,这是我们的第二套系统。

和特斯拉影子模式不同,影子模型是一套模型、两套后处理代码,一套后处理代码用户用,另一套后处理代码用户不用的时候做测试。而我们完全是车端两套系统,一套系统就是用户用,另一套系统就是我下一代的算法在上面,并行去做AB test。

这也是我们从22年量产之后到今天,我们的主动安全能迅速迭代的原因之一。早期主动安全最大的问题是FP(false positive,误报)测试成本太高,一个误刹对用户影响极大,程序员写代码要尽可能小心并收窄范围,以往业内对AEB指标是10万、20万公里一次FP,但一辆测试车两三班倒,一天也就三五百公里,20万公里就需要一两百台车测试一天,对蔚来的200万公里一次FP的标准来说,完全迭代不动。

所以基于我们的第二套系统“AB test”,我们把它用在了主动安全上,现在哪怕最少200万公里FP的标准,我们也能做到三天迭代一次,完全逼近互联网的迭代效果。

在这之上,我们又做了第三套系统,这次要解决的是80多万辆量产车的智驾问题,有些用户每天都用蔚来的智驾,用的好就会继续用,用的不好的主动接管,那这套系统对每一个接管做自动化分析,直接干掉99%以上的无效信息,返回0.1%-0.5%的数据,我们再在云端用大模型过一遍,研发工程师再去看,最后出报告。

这是我们在20年到22年做这样的一些工作,它的很多结果,其实到最近或者是再之后用户才能感受到。

雷峰网:您对于端到端怎么看?

任少卿:大家开始做所谓的端到端。这个词其实很有意思,因为你会发现说除了智驾没有人说端到端,但其他领域确实有人在用端到端。

从2010年DAMA开始,大家建立了一套在当时的技术能力上其实是非常难做到的一个应用,以至于不得不拆成一节一节,打散了再一项一项解决,一直到2020年、2021年,让熟悉研发的工程师画自动驾驶架构,会发现大家画的基本上是一样的,所以从架构层面来说,十几年变化不大。

但到了2022年、2023年,产业链出现了一定的可能性,有机会打破原来的架构进行整合,然后拿到更快、更好的效果。业界就进入所谓端到端的时代。大概在2023年的时候我们有过一次内部讨论,大概就是讨论端到端面临的问题。

端到端它是自动驾驶技术演进过程的一个阶段,但它没有解决很多其他问题,比如语言模型是不是可以直接用在自动驾驶上?以及语言模型是不是一个终极的AGI的完整体?自动驾驶本质上是一个真实世界中运转的Agent,类似“泛机器人”的概念,那面临的问题是,有了语言模型后,AGI是否就实现了?还缺什么?这是2023年很长时间我们在思考的问题。

雷峰网:对于世界模型和端到端的区别又怎么看?

语言模型的核心是语言,或者说是token,它的输入是语言、输出是语言,中间所有的表达全都是语言,它的根是语言。语言是什么呢?语言是概念的抽象。所以语言模型可以认为,是以语言为核心建立的概念认知的模型,他学到的能力是对于概念的认知。

但“一图胜千言”,概念语言是相对抽象的。首先,在真实世界里有非常多的细节很难用概念去做描述。我们可以大致描述细节,但非常难以精确高效地描述它细的部分。其次,除了平面信息,人在真实世界里实际上交互的是三维和四维信息,即空间和时间。“空间”用语言更难描述,但在生活中又逃不掉。

所以我们认为,概念认知是表象,与语言并行的是时空认知。时空认知的底层是泛的图像,这个图像可以是二维的,也可以是三维、四维。概念认知能力和时空认知能力是AGI,或者说一个人、智能体、生物必需的,而语言模型解决不了时空认知的问题。

世界模型本质上是要建立时空认知能力。时空认知往下,它会分为物理规律、时空理解,也就是时间和空间,两者结合就是世界模型要学习的。这件事是我们从2023年开始思考并投入研发,2024年7月份的NIO IN上第一次公开发布,在行业内蔚来是国内第一家,在行业外大概率也是第一家,逐渐有越来越多的人都开始拥抱世界模型路线,包括腾讯也做了世界模型,业界的讨论也开始多了起来。

雷峰网:是什么让蔚来决定All in世界模型?

任少卿:世界模型相较其他大模型都很难做到的一点,那就是长时序能力,之前的自动驾驶,包括只要是跟真实世界和时序特别相关的场景,语言模型不需要一个严格的时间轴。但只要和物理世界相关,时间轴非常明确。

这时候系统就面临一个问题,如果遇到跨10秒、1分钟、10分钟的决策,应该怎么做?自动驾驶前面十几年是怎么解决的呢?只干了两件事。第一个先是地图,地图本质就是一个长时序的信息传入。例如,地图上显示,某条街修路了,路径需要改变;再比如这条路前面2个小时有拥堵的实时信息。所有的这些都是长时序信息的输入,这是自动驾驶任务遇到长时序的第一个信息来源。

第二个就是靠人写if else,依靠规则代码:如果前面发生某种状况,3秒钟之后应该怎么处理,5秒钟之后应该怎样,接下来1分钟又该怎么样,依靠规则。只有这两种,没有其它的方式。

但这才是人和机器最大的不同。随着transformer、memory等技术出现,业内可以做到3秒钟、5秒钟,也就是如此。但人驾驶甚至有跨月的记忆,比如说一个月之前,你在这条路上开错了,连续一个月之后你再也不会开错,这个场景在所有现在的框架里是未能解决的。

那刚才说的这些长时序怎么办?用世界模型去解决。蔚来在小路的处理能力就是一个很好的例子,在小路开智驾它既需要对空间理解,也需要对时间理解。

如果对向来了一辆车,在会车的时候要不要让路?让路的同时是要减速还是刹停?这里其实涉及到对时间理解和空间的推理判断,或者说是长时序,因为当你看到对向来车的时候就要做出判断。以往业内做法是拆开去做,长时序的情况还是去靠if else,然后让感知模块和端到端模块去处理一个三秒内的动作,模型本身处理不了这么长的时序。

如果只靠外层的状态机,你会逐渐发现这种场景是割裂的,因为本质上这是一个10s、20s的长时序的任务,结果模型只能处理三秒,所以在这种场景会断断续续。而世界模型除了学习空间,同时也会学习时间,这就使得世界模型能够支持长时序的推演,世界模型的外层状态机基本被砍掉了,处理事情会更一体化。

这也是我们在2023年最核心的思考。

第八届 GAIR 全球人工智能与机器人大会

2025年12月12-13日,第八届GAIR全球人工智能与机器人大会,将在深圳南山·博林天瑞喜来登酒店举办。

今年大会,将开设三个主题论坛,聚焦大模型、算力变革、世界模型等多个议题,描绘AI最前沿的探索群像,折射学界与产业界共建的智能未来。目前,首批重磅大咖名单正式揭晓,还有更多行业领军者将齐聚现场,共探智能的未来。欢迎点击文末“阅读原文”或识别海报二维码,报名参会,相约 GAIR 2025 ~



免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。