当前位置: 首页 » 资讯 » 科技头条 » 正文

Nullmax 徐雷:视觉决定智驾系统上限,反对把激光雷达当“拐棍”

IP属地 中国·北京 晚点LatePost 时间:2025-12-02 22:17:39



特斯拉前深度学习负责人谈自动驾驶纯视觉与融合感知路线之争。

文丨赵宇

编辑丨龚方毅

在自动驾驶领域,纯视觉与融合感知方案的路线之争由来已久。前者把摄像头作为核心传感器,就像人类主要用眼睛感知道路情况;后者主张综合采用激光雷达、摄像头、毫米波雷达等多种传感器,构建比人类感官更强大的感知系统。

为理解争论背后的技术原理,我们访谈了智能驾驶研发商 Nullmax 纽劢科技创始人兼 CEO 徐雷。创办 Nullmax 前,徐雷先后任职于高通、特斯拉,曾作为 Autopilot 研发团队的核心成员,从零开始领导搭建 Tesla Vision 深度学习网络,并取代特斯拉第一代自动驾驶产品中使用的 Mobileye 视觉系统。这些经历让他对于这场技术争论有着自己的独到见解。

徐雷说,摄像头获取道路场景信息的频率和丰富程度都明显高于激光雷达,因此视觉方案有着更高的能力上限。而在现阶段的一些融合感知方案中,当不同传感器提供的信息发生冲突时,智驾系统倾向于更相信激光雷达——这从侧面印证了厂商视觉处理能力的不足。

“激光雷达能让智驾系统快速实现量产上车,但最终要达到一定高度,还是要把视觉 AI 能力做好。” 徐雷告诉我们,他并非完全排斥激光雷达,而是对不同传感器的使用都持开放态度。但无论采用哪种方案,都必须将视觉感知作为最核心、最优先发展的能力。在他看来,过度依赖激光雷达虽然是能让产品快速上车的 “捷径”,但最终会限制智驾系统的长远发展和性能天花板。

以下是我们与徐雷对话的主要内容,经编辑:

晚点:今年 7 月,懂车帝的一场智驾系统测试显示:特斯拉虽未搭载激光雷达,实际表现却超过许多配备激光雷达的国产品牌。你预料到这个结果吗?如何看待激光雷达的必要性?

徐雷:视觉传感器和激光雷达各有优势。摄像头属于被动感知,能提供分辨率更高的图像、颜色和纹理特征等丰富信息,帧率可达每秒 30 帧。激光雷达虽能主动发射激光、通过 ToF(Time of Flight,一种基于信号飞行时间的测距技术)测距,但点云密度和分辨率比摄像头低,信息没有视觉传感器丰富,帧率通常只有每秒 10 帧。

在理想状态下,如果车辆能同时搭载两种类型的传感器,且控制器算力足够强、算法足够好,那性能天花板肯定最高。不过汽车作为消费品,需要考虑成本和价位差异。单独使用激光雷达会因帧率低、点云稀疏而限制智驾系统性能上限。纯视觉方案在算法和算力足够的情况下也能开得挺不错,但仍会受到算力水平等因素制约。

因此,智驾系统的传感器选择需要综合考虑性能、成本等多方面因素,并不是单纯的理论问题。

晚点:现在车端算力还在提升,这是否为搭载激光雷达提供了便利条件?

徐雷:激光雷达对算力的消耗实际上比视觉传感器更小,因为激光雷达的点云信息量相比 800 万像素摄像头的视频流要稀疏很多,帧率也更低。摄像头捕捉到的信息量更大,关键在于如何充分利用这些海量信息。

如果重度使用激光雷达,而视觉处理能力不足,智驾方案会受限于激光雷达的性能天花板。然而,对于需要快速博弈和迅速反应的场景,仅靠激光雷达难以有效处理,视觉能力必须跟上。

晚点:充分利用摄像头的技术难点是在于算法吗?

徐雷:主要是两个方面。一是算法本身的技术先进性;二是如何让算法在车端计算资源有限的嵌入式平台上高效运行,智驾方案最终还是要跑在车端。

晚点:从行业平均角度看,一颗 800 万像素摄像头大概占用多少算力?

徐雷:很难给出绝对数值,因为这取决于具体功能需求——是单车道的高速 NOA、带换道的高速 NOA,还是城市 NOA?要处理的场景数量不同,决定同样传感器配置下系统对算力的消耗不一样。而且 TOPS(Tera Operations Per Second,每秒计算一万亿次) 只是衡量指标之一,还要考虑内存带宽、NPU(Neural Processing Unit,神经处理单元)对算子的支持力度等因素。

晚点:业内有说法认为,激光雷达是现阶段的一根 “拐棍”,你认可吗?

徐雷:激光雷达方案可能是个捷径,能快速让系统跑起来,但上限相对较低。

晚点:为什么纯视觉方案的上限更高?

徐雷:从信息输入看,激光雷达每 100 毫秒才获得一次点云,而摄像头每 33 毫秒就能提供 800 万像素的图像——视觉传感器的信息更丰富,获取频率更高。开车需要在电光石火间作出决策,如果输入帧率和信息量跟不上,虽然车也能行驶,但在需要快速反应的场景下,智驾方案的能力确实会差一些。

激光雷达虽然通过直接测距降低了处理难度,但它的信息量少、观测间隔长,构建周围环境可能不够及时、精确。对一些需要准确及时理解的场景,表现相对较弱。

晚点:纯视觉方案以摄像头为主传感器,那融合感知方案呢?

徐雷:以特斯拉为例,它没有在量产车上搭载激光雷达,系统必须靠纯视觉理解三维世界。而我了解的一些以激光雷达为主的方案,对激光雷达的依赖度非常高。

一些以激光雷达为主传感器的车,它的视觉处理能力可能跟不上。摄像头虽然每秒输入 30 张图像,但系统可能只处理 10 次结果。这种对激光雷达的强依赖可能导致系统在极限测试场景下表现不佳。

晚点:纯视觉方案上限可能更高,但你刚才也说,在理想状态下,两种传感器都用才最好。

徐雷:如果不考虑成本,我当然希望有冗余配置,比如在车里放两台发动机,一台坏了就换另一台。但冗余不仅涉及传感器,算法融合本身的技术挑战也很高。所以像特斯拉,选择在发展过程中先做好视觉,同时它考虑到要卖车,加那么多激光雷达对成本也是挑战。

晚点:所以你从内心角度是支持纯视觉方案?

徐雷:不是,我比较开放。我的想法是:第一,肯定要以视觉为主,一定要把视觉能力做好。如果车上有视觉和激光雷达,却只把激光雷达做好,视觉只处理到 10 帧,那我不能接受。第二,对于车上的传感器,无论是激光雷达、4D 毫米波雷达还是将来的新东西,我都持开放态度,我不认为车上只能有摄像头。

晚点:你反对的是,有些厂商用了激光雷达,但没有把视觉能力做好。

徐雷:对。你会看到,那些车的摄像头也不少。理论上,装了这么多摄像头,还有激光雷达,智驾系统的能力不应该比特斯拉差才对。

晚点:有些厂商说,用激光雷达是为了在夜间、雨雾等场景下更快识别前方不规则障碍物,这样更安全。你怎么看?

徐雷:我个人认为,在漆黑的恶劣天气下,建议不要行驶。这不适合自动驾驶甚至人工驾驶。摄像头有局限性,不过传感器也在进步,车上还可能有 4D 毫米波雷达等其它传感器。激光雷达能看到的东西,其他传感器也能看到,但能否准确识别是个问题,因为会有误报的挑战。激光雷达在雨雪天气也会受影响。

有这些传感器当然更好,但这涉及产品定义:我们的产品边界在哪?到底要识别多大的障碍物?根据国家智能驾驶标准,视觉加 4D 毫米波的方案能够解决这些问题,并不一定要上激光雷达。

晚点:可以把 4D 毫米波雷达理解为小一号的激光雷达吗?

徐雷:它们的原理还不太一样,像是苹果和橘子。

晚点:4D 毫米波雷达能提供一些摄像头感知不到的环境要素。

徐雷:恶劣环境对它的影响非常小,甚至没有影响。

晚点:特斯拉现在连 4D 毫米波雷达都不用,这是出于什么考量?

徐雷:马斯克的想法很朴素:人开车时,恶劣天气下看到东西也会刹车,也不可能把每种场景都处理好。如果有这些传感器当然更好,但从马斯克的角度,摄像头就能达到要求:晚上有灯光,现在的 CMOS 传感器进光量大,也能看到很多东西。

晚点:相比国内厂商,特斯拉的视觉能力大概高出多少?

徐雷:现在国内头部厂商基本在 10FPS(Frames Per Second,每秒帧数) 左右,特斯拉至少达到 20 多 FPS。

晚点:还有人觉得,有些厂商不用激光雷达是由于成本因素,但现在激光雷达的价格也不是很高。

徐雷:不一定是纯价格原因。包括海外一些车企,他们可能觉得激光雷达难以布置,会影响车辆造型。

晚点:马斯克还说过,当摄像头和激光雷达的识别结果不一致时,听谁的也是个问题。

徐雷:这就是融合时的难点。两个不同源的信息,到底信谁,或者怎么综合?

晚点:国内用激光雷达的厂商解决这个问题了吗?

徐雷:大部分厂商还是更相信激光雷达,这可能是因为他们还没有把视觉处理到比较好的状态。有激光雷达至少能让车先开起来,只是遇到挑战性场景时处理不好。在国内,大家更关心如何让智驾方案快点儿上车。

晚点:激光雷达厂商还在提高线数,比如从 128 线到 800 线,这对激光雷达的性能提升有多大帮助?

徐雷:增加线数是为了让点云更密。在以前,地上的较小物体激光雷达可能探测不到;现在能被多个点覆盖,识别效果肯定会更好,但相应地,成本也会上升。

晚点:现在很多厂商都在做 “端到端”、VLA,这些新技术对数据的使用更重。他们使用的数据,主要就是摄像头采集来的吧?

徐雷:这要看每一家厂商怎么定义。从数据角度,无论是传统 CNN 还是 Transformer、BEV,最开始肯定是用实际采集来的数据。但越往后,如何通过 AIGC 生成数据更重要,因为对于一些极限场景,实际采集来的数据毕竟有限。

晚点:Nullmax 是怎么使用数据的?

徐雷:我们研发了一套数据驱动的成长系统。举个例子,2021 年做海外项目时,不同国家交通标识的差别很大,不可能开车采集很长里程。我们就想用 AI 生成方案,比如自动把速度标识贴到真实场景的正确位置,后来扩展到生成不同颜色、距离的车辆,甚至生成视频。在闭环仿真中调整规控策略,摄像头视角的视频也会相应变化。

我们希望靠技术而非狂采数据,因为后者成本很高。通过算法,用真实数据生成千变万化的场景,同时覆盖危险场景。产生有效数据的能力本质上是算法能力。算力也不是蛮干,用什么网络架构能大幅降低算力需求,这是有技术含量的,并不是完全拼谁有钱买卡。

晚点:你在特斯拉自动驾驶部门工作过。至今人们仍认为,特斯拉的智驾能力处于行业前列。特斯拉主要做对了哪些事情?

徐雷:第一性原理比较重要,就是即使有挑战,也坚持走正确的路。我们认为,用激光雷达像拐棍或捷径,能让智驾系统快速实现量产上车,但最终要达到一定高度,还是要把视觉 AI 能力做好,这没那么急功近利。无论是视觉加激光雷达,还是视觉加毫米波雷达,首先要把视觉能力提到足够高,这会决定系统上限。

题图视觉中国

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。