![]()
智东西
作者 陈骏达
编辑 云鹏
智东西5月19日报道,今天,阿里的Qwen3.7系列预览版模型已上线,共有Max和Plus两个版本。大模型竞技场也放出了Qwen3.7-Max-Preview的评测结果。在大模型竞技场覆盖主流基座大模型的总榜上,Qwen3.7-Max-Preview排名第13,介于GPT 5.5和Grok 4.2之间,是这一榜单上排名最高的国产模型。
![]()
在具体的细分榜单上,Qwen3.7-Max-Preview在数学领域排名第7、在专家任务中排名第9、在软件与信息技术任务中排名第9、在编程任务中排名第10。
![]()
▲Arena.ai公布Qwen3.7-Max-Preview的成绩
Qwen3.7-Plus-Preview的总榜排名暂未公布。不过,在竞技场的视觉排行榜上,我们能看到Qwen3.7-Plus-Preview的成绩。这一模型排名第16,得分介于GPT 5.4和Gemini-3 Flash之间。
阿里暂时并未披露Qwen3.7系列模型的具体技术细节,在明天的阿里云峰会上,这两款模型的更多信息或许会发布。
目前,在Qwen Studio上,用户已经可以体验到Qwen3.7-Max-Preview与Qwen3.7-Plus-Preview,这两款模型采取了闭源发布的模式。Qwen3.7-Max-Preview目前仅支持推理模式,不支持图片上传。
![]()
智东西第一时间对这两款模型进行了体验。Qwen3.7-Max-Preview的实测涉及数学、编程、推理等多种类型的任务,Qwen3.7-Plus-Preview的实测则以视觉任务为主。
从我们的体验来看,这一代Qwen模型的响应更为直接、迅速,思考节奏也比此前的Qwen模型更果断,在编程、视觉方面的能力有可感的提升。
体验链接:chat.qwen.ai/
一、4分钟做对IMO难题,还给我写了个能跑的EXE
在多领域的排名中,Qwen3.7-Max-Preview在数学方面的得分较为突出。我们拿2025年IMO的一道难题,考察它的数学能力。
Qwen3.7-Max-Preview拿到题目后,进行了多轮分析和反复核验,最终得出了正确答案,思考速度也还不错,大概只花了4分钟。
![]()
Qwen目前只提供思维链总结,我们看不到模型的真实思考过程。不过,从思维链总结中可以发现,和之前的Qwen模型相比,Qwen3.7-Max-Preview似乎更自信了,反复自我核查的环节减少了一些。
Qwen3.7-Max-Preview在编程任务上的表现也不错。不过,由于目前这款模型只能在网页中体验,我们暂时没有尝试较为复杂的开发任务。
首个编程任务是让Qwen3.7-Max-Preview生成一个番茄钟的桌面应用,并直接打包成EXE。Qwen3.7-Max-Preview没有在思考环节花许多时间,而是很快进行了开发,设计了一个具备工作计时、短休息、长休息、自动切换、声音提醒、任务统计的应用。
Qwen3.7-Max-Preview称它无法输出EXE,但向我提供了逐步的指引,最终我自己完成了打包的工作。运行后,这一应用无法正常启动。
![]()
阅读报错信息后,Qwen3.7-Max-Preview判断,报错是因为Tkinter底层(Tcl/Tk)在打包后,不支持带透明度的十六进制颜色代码。
![]()
问题修复后,这一桌面应用可以正常运行,核心功能都正常,但应用本身的设计比较粗糙。
![]()
用HTML输出内容成为最近AI圈的一大热点,我让Qwen3.7-Max-Preview的设计一个AI社交媒体应用的产品需求文档,并输出为HTML样式的网页。
拿到任务后,Qwen3.7-Max-Preview没有输出文字版的产品需求,再转为HTML,而是直接用HTML输出了所有内容。
从最终结果来看,Qwen3.7-Max-Preview的这份产品需求文档结构完整,还配上了产品原型设计,但在产品定义上似乎有些大而全,显得没有焦点。
![]()
我们还跑了跑其他类型的任务。SVG图绘制上,Qwen3.7-Max-Preview能顺利生成一张动态的鹈鹕骑自行车图片,画面内容基本准确。
![]()
通用推理任务中,Qwen3.7-Max-Preview一下看穿了这道“海龟汤”的谜底,判断出女孩是红绿色盲,并且应该不是父亲亲生的孩子。
![]()
二、有惊无险攻克视觉版“洗车店难题”,还靠一张图复刻微信
在接下来的测试中,我们主要考察了Qwen3.7-Plus-Preview在视觉能力上的表现。
首个实测任务是一道进阶版的洗车店难题。我们用AI生成了一张卫星地图风格的图片,图中只有两个地点的距离。
我告诉Qwen3.7-Plus-Preview左侧地点是我家,右侧是洗车店,并询问它,如果我去洗车,该走路还是开车呢?
![]()
从Qwen3.7-Plus-Preview的思考过程中可以看到,它准确地看到了图片中的文字和视觉信息,并评估了各种不同的选项,甚至还在某一思考阶段得出了走路才是最高效合理的方式,险些陷入险境。
不过,最后它还是给出了正确的回答,方案是开车去洗车,然后走路回家,不用在店里干等。
![]()
此前,我们在实测DeepSeek视觉模式过程中发现,如今的多模态大模型在看图猜地点上做得很不错,我们也让Qwen3.7-Plus-Preview试了试一样的题目。
![]()
看到图片后,Qwen3.7-Plus-Preview先是通过建筑风格判断这里应该是在中国北方某大型城市,然后在依据山脉形态判断远处的山应该属于燕山余脉。最终它认为远处的山是军都山,并据此判断我所在的地方应该是昌平南邵。
![]()
这一判断其实是错误的,但离正确答案也不远了。图中的山脉是北京的凤凰岭,而我所在的观察地位于马池口镇,Qwen3.7-Plus-Preview的猜测与正确地点相距不到10公里。
视觉能力还可以与编程任务结合。我随手截取了一张微信的截图,让Qwen3.7-Plus-Preview复刻出一个类似的网页版聊天工具。
执行过程中,即便图中没有明显的微信字样,Qwen3.7-Plus-Preview也通过UI风格的视觉因素判断出这是微信,并据此规划了设计风格。
![]()
从最终的复刻效果来看,Qwen3.7-Plus-Preview很好地把握了微信的设计特点,外观还原度很高,不过图中的按钮无法正常使用。
![]()
结语:Qwen系列模型加速迭代
今年,阿里的Qwen系列模型迭代速度,相较以往有明显提升。从2026年2月至今,阿里已经陆续发布了Qwen3.5、Qwen3.6、Qwen3.7三代模型,而2025年全年Qwen只发布了Qwen3和Qwen-Next两个主要版本。
相比过去以“大版本发布”为核心的节奏,如今的Qwen更像是在沿着技术路线持续快跑,通过高频预览版和能力增量更新,让模型更快进入真实场景接受检验。





京公网安备 11011402013531号