超越Gemini3、GPT5.1！阿里千问登顶空间推理全球冠军

IP属地中国·北京 编辑：吴俊快科技 时间：2025-11-26 16:06:32

快科技11月26日消息，今日，空间推理基准测试SpatialBench更新了最新一期榜单，阿里千问的视觉理解模型Qwen3-VL、Qwen2.5-VL位列头两名，超越Gemini 3、GPT-5.1、Claude Sonnet4.5等国际顶尖模型。
SpatialBench榜单显示，Qwen3-VL-235B和Qwen2.5-VL-72B分别斩获13.5和12.9分，领先于Gemini 3.0 Pro Preview（9.6）、GPT-5.1（7.5）、Claude Sonnet 4.5等海外顶尖模型。
然而，AI大模型的整体表现距离人类仍有差距，人类基准线约为80分左右，可专业处理电路分析、CAD 工程和分子生物学等复杂空间推理任务，目前大模型还无法完全自动化完成此类工作。
据悉，Qwen2.5-VL于2024年开源，Qwen3-VL是阿里在2025年开源的新一代视觉理解模型。
Qwen3-VL在视觉感知和多模态推理方面实现重大突破，在32项核心能力测评中超过Gemini2.5-Pro和GPT-5，不但可调用抠图、搜索等工具完成“带图推理”，也可以凭借一张设计草图或一段小游戏视频直接“视觉编程”。
同时，Qwen3-VL专门增强了3D检测能力，可以更好地感知空间，基于Qwen3-VL，机器人更好地判断物体方位、视角变化和遮挡关系，实现远处苹果的精准抓取。
目前，Qwen3-VL已开源不同版本，包括2B、4B、8B、32B等密集模型以及30B-A3B、235B-A22B等MoE模型，每个模型都有指令版和推理版两款，是当下最受企业和开发者欢迎的开源视觉理解模型。同时，Qwen3-VL模型也已上线千问APP，用户可免费体验。
据了解，SpatialBench是一项近年来兴起的第三方空间推理基准测试榜单，主要聚焦多模态模型在空间、结构、路径等方面的综合推理能力，被AI社区视为是衡量“具身智能”进展的新兴测试标准之一。
SpatialBench不仅测试模型已知的知识，还测试模型在二维和三维空间中“感知”和操控抽象概念的能力，这对具身智能的落地尤为关键。

标签：模型 vl 基准视觉 qwen 模态 spatialbench 榜单空间 qwen3

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

索尼与松下的“大撤退”：日本电视时代落幕背后的产业折叠与生态重构

效率突破15%！中国新一代太阳能电池研究取得新进展

宝马Mini发布1965胜利特别版：纯电版输出255马力

中国机器人“双雄”登陆韩国韩媒警示：产业差距在拉大

特斯拉将遭集体诉讼：被指控歧视美国工人青睐外国人

印度前首富挑战扎克伯格和马斯克：信实瞄准人工智能硬件市场

全站最新

索尼与松下的“大撤退”：日本电视时代落幕背后的产业折叠与生态重构

效率突破15%！中国新一代太阳能电池研究取得新进展

宝马Mini发布1965胜利特别版：纯电版输出255马力

中国机器人“双雄”登陆韩国韩媒警示：产业差距在拉大

热门推荐

百度地图文心AI副驾陪聊过亿次「岳云鹏AI副驾」成最热IP

索尼与松下的“大撤退”：日本电视时代落幕背后的产业折叠与生态重构

效率突破15%！中国新一代太阳能电池研究取得新进展

宝马Mini发布1965胜利特别版：纯电版输出255马力

中国机器人“双雄”登陆韩国韩媒警示：产业差距在拉大

特斯拉将遭集体诉讼：被指控歧视美国工人青睐外国人

印度前首富挑战扎克伯格和马斯克：信实瞄准人工智能硬件市场

微软还在强推自家AI！点击Outlook链接将自动打开Copilot

谷歌的“豆包手机”来了？

Gemini化身“智能体”，谷歌Pixel 10、三星Galaxy S26将能自动打车订外卖

从小冰到元宝，10年过去了，为啥AI就是管不住嘴？

消息称鸿蒙智行五界定位会越发清晰，尊界将确立自己无人能及的品牌地位

唯品会发布2025年业绩：净营收1059亿元，SVIP贡献超半数线上销售额

年产值将超千亿元！立讯人工智能终端在苏州开工：聚焦AI服务器

上海发放2026年首批汽车消费券，消费者购车最高可获3000元现金优惠