Ai2推出MolmoAct模型：在机器人领域挑战英伟达和谷歌

IP属地中国·北京 编辑：冯璃月 时间：2025-08-14 16:30:37

物理AI是机器人技术与基础模型结合的快速发展领域，英伟达、谷歌和Meta等公司正在发布研究成果，探索将大语言模型与机器人技术融合。
艾伦人工智能研究所（Ai2）发布了最新研究成果MolmoAct 7B，这是一个全新的开源模型，让机器人能够"在空间中推理"，旨在物理AI领域挑战英伟达和谷歌。MolmoAct基于Ai2的开源项目Molmo构建，能够进行三维"思考"，同时还发布了其训练数据。该模型采用Apache 2.0许可证，数据集则使用CC BY-4.0许可证。
Ai2将MolmoAct归类为动作推理模型，即基础模型在物理三维空间中对动作进行推理。这意味着MolmoAct能够运用推理能力理解物理世界，规划空间占用方式，然后执行相应动作。
**空间推理的独特优势**
Ai2表示："与传统的视觉-语言-动作（VLA）模型相比，MolmoAct具备三维空间推理能力。大多数机器人模型都是VLA，无法在空间中思考或推理，但MolmoAct具备这种能力，从架构角度来看更加高效且具有更强的泛化能力。"
由于机器人存在于物理世界中，Ai2声称MolmoAct能帮助机器人感知周围环境并做出更好的交互决策。该公司表示："MolmoAct可以应用于任何需要机器对物理环境进行推理的场景。我们主要考虑家庭环境，因为那是机器人技术面临的最大挑战，环境不规则且不断变化，但MolmoAct可以应用于任何地方。"
**技术实现原理**
MolmoAct通过输出"空间定位感知Token"来理解物理世界，这些Token是使用向量量化变分自编码器预训练和提取的，该模型能将视频等数据输入转换为Token。公司表示，这些Token与VLA使用的Token不同，它们不是文本输入。
这些Token使MolmoAct能够获得空间理解能力并编码几何结构，通过它们模型可以估算物体间的距离。一旦获得距离估算，MolmoAct就会预测一系列"图像空间"路径点，即可以设定路径的区域点。之后，模型开始输出具体动作，如将机械臂下降几英寸或伸展等。
Ai2的研究人员表示，他们能够让模型适应不同的具体实现形式（如机械臂或人形机器人），"只需最少的微调"。
**性能表现突出**
Ai2进行的基准测试显示，MolmoAct 7B的任务成功率达到72.1%，超越了谷歌、微软和英伟达的模型。
俄勒冈州立大学工程学院教授Alan Fern表示，Ai2的研究"代表了在增强视觉语言模型用于机器人技术和物理推理方面的自然进展"。虽然不是革命性的，但这是开发更强大的三维物理推理模型的重要一步。
初创公司Gather AI联合创始人Daniel Maturana赞扬了数据的开放性，指出"这是个好消息，因为开发和训练这些模型成本高昂，这为其他学术实验室甚至专业爱好者提供了坚实的基础"。
**物理AI发展趋势**
创造更智能或至少更具空间感知能力的机器人一直是许多开发者和计算机科学家的长期梦想。在大语言模型出现之前，科学家必须编程每一个动作，工作量巨大且机器人动作类型灵活性有限。现在，基于大语言模型的方法允许机器人根据交互对象确定下一步可能的动作。
谷歌研究的SayCan帮助机器人使用大语言模型对任务进行推理，确定实现目标所需的动作序列。Meta和纽约大学的OK-Robot使用视觉语言模型进行运动规划和物体操控。Hugging Face发布了299美元的桌面机器人，致力于机器人开发的民主化。英伟达宣称物理AI是下一个重大趋势，发布了包括Cosmos-Transfer1在内的多个模型来加速机器人训练。
Fern表示，尽管演示仍然有限，但对物理AI的兴趣正在增加。实现通用物理智能的目标正变得更容易实现，这将消除为机器人单独编程动作的需要。
Q&A
Q1：MolmoAct与传统机器人模型有什么区别？
A：MolmoAct具备三维空间推理能力，而传统的视觉-语言-动作（VLA）模型无法在空间中思考或推理。MolmoAct能够理解物理世界、规划空间占用并执行相应动作，从架构角度来看更加高效且具有更强的泛化能力。
Q2：MolmoAct的技术原理是什么？
A：MolmoAct通过输出"空间定位感知Token"来理解物理世界，这些Token使用向量量化变分自编码器预训练提取。模型能获得空间理解能力并编码几何结构，估算物体间距离，预测路径点，然后输出具体动作指令。
Q3：MolmoAct的性能表现如何？
A：基准测试显示，MolmoAct 7B的任务成功率达到72.1%，超越了谷歌、微软和英伟达的模型。研究人员表示，模型能够适应不同的具体实现形式，如机械臂或人形机器人，只需最少的微调。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

亚马逊史上最大规模裁员！裁减多达3万人，涉及云计算等核心部门

大模型在具身推理上「翻车」了？4496 道题全面揭示短板

小米汽车公布磷酸铁锂材料制备专利可用于制造体积能量密度更高的电池产品

AMD与美国能源部达成10亿美元AI合作，将打造两台超级计算机

阿尔巴尼亚AI部长“怀孕”，将诞83个AI助理服务议会

腾讯、茅台抢着送钱，宇树劲敌乐聚也要IPO了

全站最新

亚马逊史上最大规模裁员！裁减多达3万人，涉及云计算等核心部门

大模型在具身推理上「翻车」了？4496 道题全面揭示短板

小米汽车公布磷酸铁锂材料制备专利可用于制造体积能量密度更高的电池产品

AMD与美国能源部达成10亿美元AI合作，将打造两台超级计算机

热门推荐

罗马仕被冻结3886万股权

中央网信办整治网络直播打赏乱象：要求加大处置力度，严打典型

上海商汤智能科技公司增资至177.5亿，增幅约9%

天然呆再被申请破产，关晓彤曾代言

罗马仕被冻结3886万股权

法律税务公司Steuerrecht.com 借助 ChatGPT Business 提升效率

基因疗法与人工智能结合，Nephrogen 力求逆转肾病

小模型训练效率狂飙100倍！Thinking Machine推“在线策略蒸馏”，OpenAI前CTO亲自点赞

Mercor 获3.5亿美元融资，借行业变局加码 AI 数据标注业务

英伟达推出全模态理解模型 OmniVinci，刷新 SOTA 高出19.05分

亚马逊史上最大规模裁员！裁减多达3万人，涉及云计算等核心部门

大模型在具身推理上「翻车」了？4496 道题全面揭示短板

小米汽车公布磷酸铁锂材料制备专利可用于制造体积能量密度更高的电池产品

AMD与美国能源部达成10亿美元AI合作，将打造两台超级计算机

阿尔巴尼亚AI部长“怀孕”，将诞83个AI助理服务议会