阿里Qwen3.7竞技场杀至国产第一！一手实测：分分钟破解奥赛难题，图文视觉全都难不倒

IP属地中国·北京 智东西 时间：2026-05-20 00:21:34

智东西
作者陈骏达
编辑云鹏
智东西5月19日报道，今天，阿里的Qwen3.7系列预览版模型已上线，共有Max和Plus两个版本。大模型竞技场也放出了Qwen3.7-Max-Preview的评测结果。在大模型竞技场覆盖主流基座大模型的总榜上，Qwen3.7-Max-Preview排名第13，介于GPT 5.5和Grok 4.2之间，是这一榜单上排名最高的国产模型。

在具体的细分榜单上，Qwen3.7-Max-Preview在数学领域排名第7、在专家任务中排名第9、在软件与信息技术任务中排名第9、在编程任务中排名第10。

▲Arena.ai公布Qwen3.7-Max-Preview的成绩
Qwen3.7-Plus-Preview的总榜排名暂未公布。不过，在竞技场的视觉排行榜上，我们能看到Qwen3.7-Plus-Preview的成绩。这一模型排名第16，得分介于GPT 5.4和Gemini-3 Flash之间。
阿里暂时并未披露Qwen3.7系列模型的具体技术细节，在明天的阿里云峰会上，这两款模型的更多信息或许会发布。
目前，在Qwen Studio上，用户已经可以体验到Qwen3.7-Max-Preview与Qwen3.7-Plus-Preview，这两款模型采取了闭源发布的模式。Qwen3.7-Max-Preview目前仅支持推理模式，不支持图片上传。

智东西第一时间对这两款模型进行了体验。Qwen3.7-Max-Preview的实测涉及数学、编程、推理等多种类型的任务，Qwen3.7-Plus-Preview的实测则以视觉任务为主。
从我们的体验来看，这一代Qwen模型的响应更为直接、迅速，思考节奏也比此前的Qwen模型更果断，在编程、视觉方面的能力有可感的提升。
体验链接：chat.qwen.ai/
一、4分钟做对IMO难题，还给我写了个能跑的EXE
在多领域的排名中，Qwen3.7-Max-Preview在数学方面的得分较为突出。我们拿2025年IMO的一道难题，考察它的数学能力。
Qwen3.7-Max-Preview拿到题目后，进行了多轮分析和反复核验，最终得出了正确答案，思考速度也还不错，大概只花了4分钟。

Qwen目前只提供思维链总结，我们看不到模型的真实思考过程。不过，从思维链总结中可以发现，和之前的Qwen模型相比，Qwen3.7-Max-Preview似乎更自信了，反复自我核查的环节减少了一些。
Qwen3.7-Max-Preview在编程任务上的表现也不错。不过，由于目前这款模型只能在网页中体验，我们暂时没有尝试较为复杂的开发任务。
首个编程任务是让Qwen3.7-Max-Preview生成一个番茄钟的桌面应用，并直接打包成EXE。Qwen3.7-Max-Preview没有在思考环节花许多时间，而是很快进行了开发，设计了一个具备工作计时、短休息、长休息、自动切换、声音提醒、任务统计的应用。
Qwen3.7-Max-Preview称它无法输出EXE，但向我提供了逐步的指引，最终我自己完成了打包的工作。运行后，这一应用无法正常启动。

阅读报错信息后，Qwen3.7-Max-Preview判断，报错是因为Tkinter底层（Tcl/Tk）在打包后，不支持带透明度的十六进制颜色代码。

问题修复后，这一桌面应用可以正常运行，核心功能都正常，但应用本身的设计比较粗糙。

用HTML输出内容成为最近AI圈的一大热点，我让Qwen3.7-Max-Preview的设计一个AI社交媒体应用的产品需求文档，并输出为HTML样式的网页。
拿到任务后，Qwen3.7-Max-Preview没有输出文字版的产品需求，再转为HTML，而是直接用HTML输出了所有内容。
从最终结果来看，Qwen3.7-Max-Preview的这份产品需求文档结构完整，还配上了产品原型设计，但在产品定义上似乎有些大而全，显得没有焦点。

我们还跑了跑其他类型的任务。SVG图绘制上，Qwen3.7-Max-Preview能顺利生成一张动态的鹈鹕骑自行车图片，画面内容基本准确。

通用推理任务中，Qwen3.7-Max-Preview一下看穿了这道“海龟汤”的谜底，判断出女孩是红绿色盲，并且应该不是父亲亲生的孩子。

二、有惊无险攻克视觉版“洗车店难题”，还靠一张图复刻微信
在接下来的测试中，我们主要考察了Qwen3.7-Plus-Preview在视觉能力上的表现。
首个实测任务是一道进阶版的洗车店难题。我们用AI生成了一张卫星地图风格的图片，图中只有两个地点的距离。
我告诉Qwen3.7-Plus-Preview左侧地点是我家，右侧是洗车店，并询问它，如果我去洗车，该走路还是开车呢？

从Qwen3.7-Plus-Preview的思考过程中可以看到，它准确地看到了图片中的文字和视觉信息，并评估了各种不同的选项，甚至还在某一思考阶段得出了走路才是最高效合理的方式，险些陷入险境。
不过，最后它还是给出了正确的回答，方案是开车去洗车，然后走路回家，不用在店里干等。

此前，我们在实测DeepSeek视觉模式过程中发现，如今的多模态大模型在看图猜地点上做得很不错，我们也让Qwen3.7-Plus-Preview试了试一样的题目。

看到图片后，Qwen3.7-Plus-Preview先是通过建筑风格判断这里应该是在中国北方某大型城市，然后在依据山脉形态判断远处的山应该属于燕山余脉。最终它认为远处的山是军都山，并据此判断我所在的地方应该是昌平南邵。

这一判断其实是错误的，但离正确答案也不远了。图中的山脉是北京的凤凰岭，而我所在的观察地位于马池口镇，Qwen3.7-Plus-Preview的猜测与正确地点相距不到10公里。
视觉能力还可以与编程任务结合。我随手截取了一张微信的截图，让Qwen3.7-Plus-Preview复刻出一个类似的网页版聊天工具。
执行过程中，即便图中没有明显的微信字样，Qwen3.7-Plus-Preview也通过UI风格的视觉因素判断出这是微信，并据此规划了设计风格。

从最终的复刻效果来看，Qwen3.7-Plus-Preview很好地把握了微信的设计特点，外观还原度很高，不过图中的按钮无法正常使用。

结语：Qwen系列模型加速迭代
今年，阿里的Qwen系列模型迭代速度，相较以往有明显提升。从2026年2月至今，阿里已经陆续发布了Qwen3.5、Qwen3.6、Qwen3.7三代模型，而2025年全年Qwen只发布了Qwen3和Qwen-Next两个主要版本。
相比过去以“大版本发布”为核心的节奏，如今的Qwen更像是在沿着技术路线持续快跑，通过高频预览版和能力增量更新，让模型更快进入真实场景接受检验。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

“科学”号启航启动第15次西太平洋科学考察共享航次

宇树科技陈立谈具身智能的“ChatGPT时刻”：需达成两个80%

投170亿、组建6000人AI专家团！微软为企业AI落地拼了

99万买个不干活的机器人，陪伴经济催生下一个万亿风口？

持续霸榜Github的是一个AI视频剪辑项目

Hinton盛赞，Gemini核心贡献者演讲：未来会有数十亿超人级AI爱因斯坦

全站最新

“科学”号启航启动第15次西太平洋科学考察共享航次

宇树科技陈立谈具身智能的“ChatGPT时刻”：需达成两个80%

投170亿、组建6000人AI专家团！微软为企业AI落地拼了

99万买个不干活的机器人，陪伴经济催生下一个万亿风口？

热门推荐

“科学”号启航启动第15次西太平洋科学考察共享航次

宇树科技陈立谈具身智能的“ChatGPT时刻”：需达成两个80%

投170亿、组建6000人AI专家团！微软为企业AI落地拼了

99万买个不干活的机器人，陪伴经济催生下一个万亿风口？

持续霸榜Github的是一个AI视频剪辑项目

Hinton盛赞，Gemini核心贡献者演讲：未来会有数十亿超人级AI爱因斯坦

25年码农疯狂求职，一天面5场，依然没班可上

iPhone 18 Pro/Pro Max国行电池揭晓：5391mAh史上最大

美光扩建日本广岛半导体工厂：投资1.5万亿日元，为英伟达等供应AI芯片

美国乡村居民对数据中心并不买账，担忧推高电价、榨干钱包

宇树科技陈立谈具身智能的“ChatGPT时刻”：需达成两个80%

中国移动发起，业内首个AI-eSIM产业协同平台成立

上汽名爵MG 07首台量产车下线，预计15万-20万元区间

谷歌才是AI相机鼻祖？Clip上手：拍照很粗糙，理念很超前

全国首个全场景开源鸿蒙养老护理院启用，支持无感监测、主动预警