理想汽车发布下一代自动驾驶基础模型 MindVLA-o1：看得更准、想得更深

IP属地中国·北京 编辑：李娜 IT之家 时间：2026-03-17 18:11:58

IT之家 3 月 17 日消息，今日，理想汽车基座模型负责人詹锟出席 NVIDIA GTC 2026，发表主题演讲《MindVLA-o1：开启全能范式 —— 下一代统一视觉-语言-动作自动驾驶大模型探索》，发布了理想汽车的下一代自动驾驶基础模型 MindVLA-o1。
据介绍，MindVLA-o1 通过五大技术创新 ——3D 空间理解、多模态思考、统一行为生成、闭环强化学习和软硬件协同设计，构建面向物理世界智能的自动驾驶基础模型。
据IT之家了解，该模型的核心突破可以概括为以下五个维度：
看得更准（3D 空间理解）：以前的系统更多是在处理平面图像，而 MindVLA-o1 结合了摄像头和激光雷达，通过 3D 编码器让车能够像人类一样感知物体的深浅、距离和运动状态，真正理解三维物理空间。
想得更深（多模态思考）：它是首个能“脑补”未来的模型。通过隐世界模型，它不仅看现在，还能在隐形空间里提前“预演”未来几秒可能发生的场景，从而做出更有预见性的决策。
行得更稳（统一行为生成）：系统采用 VLA-MoE 架构，专门配备了“动作专家”。它能同时生成所有行驶轨迹点，并通过类似“去噪”的优化过程，确保车开得既丝滑又符合物理规律。
进化更快（闭环强化学习）：理想构建了一个强大的世界模拟器。模型不仅在马路上学，还能在虚拟世界里进行大规模、高效率的自我练习和策略优化，大大降低了训练成本。
部署更高效（软硬件协同）：通过研究模型精度与硬件延迟的平衡，理想将架构设计的时间从几个月缩短到几天，让复杂的大模型能更流畅地跑在车端芯片上。

标签：模型 软硬件 模态物理空间闭环 摄像头 虚拟世界 mindvla 维度

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

机器人终于不瞎抓了！港大阿里联手开源FineVLA：用哪只手、抓哪里，一句话全搞定

一次吃下一本书！百度开源新OCR，作者疑似前DeepSeek研究员

OpenAI内部Token流向剧变，Codex几乎“通吃”

苹果涨价引发亚洲科技股抛售，市场担忧存储芯片涨价拖累AI需求

让外卖骑手转型汽车营销、质量管理，吉利发起“跨时代实战专业能力培养计划”

中国信通院联合华为云等22家单位，筹备成立AIIA词元服务工作组

全站最新

机器人终于不瞎抓了！港大阿里联手开源FineVLA：用哪只手、抓哪里，一句话全搞定

一次吃下一本书！百度开源新OCR，作者疑似前DeepSeek研究员

OpenAI内部Token流向剧变，Codex几乎“通吃”

苹果涨价引发亚洲科技股抛售，市场担忧存储芯片涨价拖累AI需求

热门推荐

机器人终于不瞎抓了！港大阿里联手开源FineVLA：用哪只手、抓哪里，一句话全搞定

一次吃下一本书！百度开源新OCR，作者疑似前DeepSeek研究员

OpenAI内部Token流向剧变，Codex几乎“通吃”

苹果涨价引发亚洲科技股抛售，市场担忧存储芯片涨价拖累AI需求

新加的同事为啥能看到你以前的“同事不可见”朋友圈？微信官方给出答案

Notion宣布将于9月22日关闭AI邮箱服务Notion Mail

亚马逊加码印度：拟投 130 亿美元布局AI与云基础设施

让外卖骑手转型汽车营销、质量管理，吉利发起“跨时代实战专业能力培养计划”

中国信通院联合华为云等22家单位，筹备成立AIIA词元服务工作组

特朗普T1手机开放销售，结算页需额外支付41.75美元的“设备税”

消息称三星集团29日将公布1000万亿韩元巨额投资计划

小米YU7获CNCAP安全性测试五星认证：雷军称安全高于一切

DeepSeek成立以来规模最大扩招，意味着什么？

头部新势力车企回应：暂不涨价

TD Cowen称马斯克SpaceX可能斥3200亿美元收购美国第三大运营商T-Mobile