当前位置: 首页 » 资讯 » 科技头条 » 正文

小米发布机器人基座模型Xiaomi-Robotics-0

IP属地 中国·北京 编辑:江紫萱 Chinaz 时间:2026-02-12 16:54:32

2月12日 消息:今日,小米科技创始人雷军在微博上宣布了一项重大技术进展:小米机器人团队正式开源发布全新具身智能VLA模型Xiaomi-Robotics-0,并首次对外曝光了真机运行画面,引发科技界广泛关注。

Xiaomi-Robotics-0模型拥有47亿参数规模,不仅具备视觉语言理解能力,还能实现高性能实时执行。在三大主流仿真测试中,该模型表现卓越,横扫行业标杆,拿下全项SOTA(State-of-the-Art)成绩,更在真实机器人上实现了流畅动作,标志着小米在机器人领域取得了关键性突破。

尤为引人注目的是,Xiaomi-Robotics-0能在普通消费级显卡上实现实时推理,这一特性直接打破了高端机器人模型只能依赖昂贵专业显卡运行的局限,降低了具身智能技术的落地门槛,让更多普通开发者和团队能够接触并应用这一先进技术。

长期以来,机器人模型面临着推理延迟高、动作不连贯以及硬件门槛极高等核心痛点。传统VLA模型在真实物理世界中表现迟钝,动作断断续续,难以像人类一样自然操作。而高性能模型则往往需要昂贵的专业显卡支持,限制了技术的普及和应用。小米此次发布的Xiaomi-Robotics-0模型,正是针对这些行业顽疾进行了深入研究和创新。

小米自研的Mixture-of-Transformers(MoT)混合架构为机器人装上了“双脑协同系统”,兼顾了决策与执行效率。视觉语言大脑(VLM)负责听懂人话、看懂环境,精准理解空间关系和任务目标;动作执行小脑(DiT)则专门负责将指令转化为丝滑动作,保证精准稳定。这一架构从根本上解决了传统模型动作断层的痛点,让机器人动作更加接近人类灵活度。

此外,小米团队还设计了两阶段训练方案,通过跨模态预训练和后训练优化,确保模型在学动作的同时不丢失基础能力,并大幅提升环境适配能力。从曝光的真机视频中可以看到,无论是处理软塌塌的柔性物体如毛巾,还是面对刚性积木,机器人都能从容完成,手眼协调稳定,不会出现卡顿或失误。

在Libero、Calvin、SimplerEnv三大全球主流具身智能测试集中,Xiaomi-Robotics-0对标超过30款主流模型,在所有基准测试中全部拿下SOTA成绩,用实打实的数据证明了其行业领先地位。

更令人称赞的是小米的开放格局。此次成果全量开源,技术主页、GitHub开源代码、Hugging Face模型权重全部公开,全球开发者都能免费使用、二次开发。这一举措彻底打破了大厂对具身智能核心技术的垄断,加速了整个行业的技术迭代。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新