当前位置: 首页 » 资讯 » 科技头条 » 正文

智元机器人发布行业首个机器人世界模型开源平台 实测可完成做三明治、倒茶等任务

IP属地 中国·北京 编辑:赵磊 凤凰网科技 时间:2025-08-14 14:05:14

8月14日,智元机器人正式发布行业首个机器人世界模型开源平台——Genie Envisioner(简称GE)。该平台突破传统“数据—训练— 评估”割裂的流水线模式,宣称首次将未来帧预测、策略学习与仿真评估整合进以视频生成为核心的闭环架构,使机器人能在同一世界模型中完成从“看”到“想”再到“动”的端到端推理与执行。

据介绍,GE平台通过构建统一的视频生成世界模型,将数据收集、模型训练、策略评估等分散环节集成到闭环系统中。其核心组件GE-Base经超百万条数据训练,可精准解析环境空间布局与动作意图;GE-Act动作解码器则实现从“看懂”到“会做”的关键转化;GE-Sim则将GE-Base的生成能力扩展为动作条件的神经仿真器,通过层次化动作条件机制实现精确的视觉预测。三大组件紧密协作,构成完整的视觉中心机器人学习平台。

依托约3000小时的真实机器人操控视频数据,GE建立了从语言指令到视觉空间的直接映射,完整保留了机器人与环境交互的时空信息。

值得一提的是,由智元机器人主办的智启具身论坛近日在2025世界人工智能大会(WAIC)举行。论坛上,智元机器人合伙人、具身业务部总裁姚卯青以飞机架构为喻,形象解析了GE平台的核心逻辑:“机身”GE-Base经过海量机器人真机数据训练,具备长程、多视角的视频生成能力;两侧的“双翼”则分别指向World Action Model和Action-conditioned World Model。

在真实测试中,搭载GE-Act的机器人已能完成“做三明治”“倒茶”“擦桌面”等多项任务。

标签: 机器人 平台 世界 模型 动作 行业 智元 开源 数据 视觉 环境 核心 任务 条件 视频 流水线 指向 模式 双翼 层次化 仿真器 空间布局 架构 神经 机制 能力 语言 空间 指令 合伙人 总裁

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。