近日,理想汽车创始人李想发文直击全球自动驾驶行业的痛点,深刻剖析了为何车企与科技公司投入巨资却始终难以突破瓶颈的核心症结。他指出,人类驾驶员的安全性源于幼年时期通过活动建立的完整3D物理空间认知,而行业主流方案却长期停留在“伪3D”阶段——即用2D视频素材训练AI。李想形象地比喻,这相当于驾驶员仅凭看行车记录仪的画面就上路,缺乏对真实物理世界的深度感知。
在李想看来,传统的BEV架构容易丢失关键的高度信息,而OCC方案又往往缺失语义理解,导致AI始终无法像人类一样真正“读懂”三维世界,这成为了制约行业进展的关键瓶颈。
针对这一难题,理想汽车给出了颠覆性的技术破局方案。李想宣布,理想推出了核心突破——原生3D ViT三维视觉编码器。该模型摒弃了从2D到3D的转换过程,直接让AI工作在3D空间中,实现了几何结构与语义理解的同步完成。在自研马赫芯片提供的三倍算力支撑下,这套系统可稳定感知500米以上的范围,不仅大幅提升了感知精度,更让激光雷达的角色发生转变,降级为高精度标定工具。

此外,理想推出的MindVLA-o1模型进一步实现了空间理解、推理决策与驾驶行为的统一建模。该模型具备多模态思考能力,能够在隐空间内模拟场景变化,展现出类似人类的推理逻辑。李想强调,这一技术突破的意义不仅限于自动驾驶,它同样适配机器人领域。自动驾驶只是“物理AI”的起点,理想正致力于打造通用的物理世界智能体,开启人工智能与物理世界交互的新篇章。(Suky)





京公网安备 11011402013531号