撰稿 | 150 克
大模型进入高速迭代的第三年,行业关注的重点正在发生变化。
过去,外界衡量一家大模型厂商的能力,主要看参数规模、基准测试成绩、盲测榜单排名,以及模型在开放对话中的表现。这些指标仍然重要,但已经不足以回答一个更现实的问题:模型能否真正进入工作流程,稳定调用工具,处理复杂任务,并带来实际效率提升。
5 月 20 日,阿里巴巴发布新一代千问旗舰模型 Qwen3.7-Max。
单看这次发布,它像是千问的一次模型升级。但放在过去几个月的产品演进中看,方向就比较清楚:千问 3.x 系列持续强化编程、长上下文、工具调用、跨框架兼容和长程任务处理能力。这些能力指向同一个变化——模型正在从回答问题,走向执行任务。
这也反映出阿里对大模型竞争的未来判断。下一阶段,模型不应只停留在对话和内容生成上,而需要进入研发、办公、数据分析、客户服务、企业运营等具体场景,理解需求、拆解步骤、调用工具,并完成更复杂的工作。
因此,Qwen3.7-Max 的发布是阿里把模型、云、MaaS、开发者工具和真实业务场景连接起来,参与 Agent 时代竞争的一个重要节点。
1三个月三次迭代,千问位列国产模型第一
大模型行业的竞争周期正在缩短。
过去,重要模型版本通常半年或一年发布一次。如今,模型更新频率明显提高。厂商需要更快吸收评测反馈、用户调用数据、真实业务需求和工程优化结果,并把这些反馈转化为下一轮训练和产品迭代。
千问正在成为这一趋势中的“领跑者”。
近三个月内,千问旗舰模型连续迭代 Qwen3.5、Qwen3.6、Qwen3.7 三个版本。从 3 月 20 日 Qwen3.5-Max-Preview 亮相,到 4 月 20 日 Qwen3.6-Max-Preview 发布,再到 5 月 20 日 Qwen3.7-Max 发布,千问保持了稳定的月度更新节奏。这样的迭代速度,即便放在全球大模型厂商中,也并不常见。
与此同时,开源模型也在扩大千问的影响力。Qwen3.6-27B、Qwen3.6-35B-A3B 等模型在开源社区获得较多关注,被视为适合本地部署和二次开发的代表。
不过,千问近期最重要的变化,并不只是更新更快,而是方向更集中。
过去,大模型发布往往围绕参数规模、综合榜单和推理能力展开。到了千问 3.x 系列,这一重点开始更明确地转向 Agent。Qwen3.5 强调“原生多模态智能体”,Qwen3.6-Plus 强调“面向现实世界智能体”,随后发布的多个版本,也都把 Agentic Coding、工具使用和工程任务作为重点。
Qwen3.7-Max 也延续了这一方向。
在第三方机构 Arena 全球大模型盲测总榜中,Qwen3.7-Max 超过 Kimi-K2.6、DeepSeek-v4-pro、GLM-5.1,与 GPT、Claude、Gemini 等最强模型接近,位列国产模型第一。
在通用智能体方面,Qwen3.7-Max 也有明显提升。它在 MCP-Atlas、MCP-Mark、SkillBench 等现实能力测试中表现优异,超过 GLM-5.1、Kimi-K2.6 等模型,创下国产模型新高;在 Kernel Bench L3 上,也展示出较强的 GPU 内核优化能力。
推理能力方面,Qwen3.7-Max 在 GPQA Diamond、HLE、HMMT 2026 Feb、IMOAnswerBench 等核心测评中,均超过 Claude-Opus4.6 及所有国产模型。
通用能力与多语言方面,Qwen3.7-Max 在指令遵循 IFBench 评测中取得 79.1 分,刷新新高;在多语言理解和翻译相关的 WMT24++、MAXIFE 评测中也保持领先。
这些结果说明,千问的模型演进正在围绕 Agent 所需能力展开:更长的上下文、更稳定的工具调用、更强的代码理解能力、更好的多轮任务保持能力,以及更适合规模化部署的推理效率。
也就是说,Qwen3.7-Max 不是一次单纯的“冲榜”,而是千问 Agent 路线上的阶段性结果。
2编程与长程任务突破背后,千问模型的进化暗线
在 Agent 场景中,编程是最早进入高强度竞争的领域。
软件工程天然适合被拆解、执行、验证和迭代。一个 CodingAgent 不只是生成代码,还要理解需求、阅读代码仓库、修改文件、运行命令、查看日志、定位错误,并根据反馈继续修复。
这正好对应 Agent 的核心能力:规划任务、调用工具、执行步骤、检查结果和自我纠错。
因此,千问最近几代模型都在持续强化编程能力。
最新发布的 Qwen3.7-Max 在编程智能体能力上继续突破。在 SWE-Pro、SWE-Multilingual、Terminal Bench 2.0-Terminus、SWE-bench 系列及 SciCode 等测评中,Qwen3.7-Max 表现领先,较 Qwen3.6-Plus 大幅提升,并超过 DeepSeek-v4-pro-Max、Claude-Opus4.6、Kimi-K2.6 等模型。
这代表了编程模型竞争的变化。单纯生成代码的价值正在下降。更重要的是理解复杂代码仓库、自主调用工具、运行测试、修复错误,并在多轮反馈中持续调整。模型正在从“代码助手”向“虚拟工程师”演进。
在我的实际测试中,Qwen3.7-Max 也体现出这种变化。
我使用 Cursor、Cline,并通过 OpenAI Compatible 协议接入千问最新模型 API,向模型提出了一个完整网页开发任务:
制作一个名为“Hacker News 热门项目追踪页”的网页,抓取 Hacker News 的 Top、Show、Ask 内容,每日更新,并给出推荐分析,判断技术媒体当天应关注哪些在开发者社区中热议的话题或项目。推荐维度包括讨论热度、技术前沿度、创业信号、开发者关注度,以及话题本身的传播潜力。
在这项任务中,Qwen3.7-Max 一次性完成了较成熟的交付物,推理速度也很快,在一分钟内完成结果。
此前多款模型在同类任务中曾出现失败,而此次测试中,Qwen3.7-Max 的完成度接近 Claude Code,也较 Qwen3.6 系列在一次成型概率和最终效果上有明显提升。
阿里内部的一个长程任务测试,也体现了这一方向。
在测试中,千问 3.7 被放到一个此前没有接触过的新硬件平台——平头哥真武 M890 上,任务是优化一个生产级注意力内核算子。模型没有现成性能 profile,没有硬件文档,也没有示例实现,只拿到了任务描述、SGLang+Triton 参考代码和评测脚本。
在这一环境中,模型连续工作 35 小时,执行数百次内核评估和上千次工具调用,完成代码编写、编译、性能分析和迭代优化流程。最终,内核速度在参考实现基础上提升了一个数量级。
更值得注意的是,在连续运行 30 小时后,模型仍能发现新的优化空间,这说明它不是在完成一次简单指令,而是在较长时间内保持目标、分析反馈并调整路径。
这个案例说明了 Agent 的一个关键方向:当大模型具备较强的推理、编程和工具调用能力,并被放入真实工程环境中,它有机会承担过去需要专业工程师长时间推进的复杂任务。
ClaudeCode、Codex、QwenCode 等产品背后,都是同一个判断:下一阶段的模型竞争,不只是比谁写代码更快,而是比谁能让模型长期、稳定地执行工程任务。
不过,阿里的特殊性在于,它拥有大量真实业务和基础设施场景。芯片、云、数据库、电商、物流、支付、出行、本地生活,都可以为 Agent 提供复杂任务环境。这些场景既能测试模型,也能为模型迭代提供反馈。
此外,千问在不同 Agent 框架中的兼容性也值得关注。目前,Qwen3 系列已经在 ClaudeCode、OpenClaw、QwenCode 等框架中被验证。在没有针对单一框架做特殊训练的情况下,它仍能迁移编程、工具使用和长程规划能力。
这意味着,千问已经成为不同 Agent 系统都可以调用的通用模型底座。
3MaaS 成为关键接口,阿里重塑 AI 基础设施链路
放到阿里的整体布局中看,Qwen3.7-Max 不只是一次模型更新,也关系到阿里在 AI 基础设施上的进一步布局。
阿里正在把芯片、云、模型、MaaS、开发者工具和应用入口连接起来。在 2026 阿里云峰会现场,阿里云宣布面向 Agentic 时代升级,并发布新的“芯—云—模型—推理”技术体系。
这一布局的背景,是企业使用 AI 的方式正在变化。
在传统云计算时代,企业购买的主要是服务器、存储和算力时长。到了 Agent 阶段,企业消耗的不只是算力本身,还包括模型处理任务、生成内容、调用工具和完成工作的能力。这些能力最终都会体现在 Token 使用上。
2026 年 3 月,阿里成立 Alibaba Token Hub,简称 ATH,由吴泳铭直接负责。这个组织调整,也可以放在这一背景下理解:阿里正在把 Token、模型服务和业务场景放到同一条链路中考虑。
在阿里的体系中,平头哥等基础设施提供底层支撑,阿里云负责算力和分发,千问负责基础模型,MaaS 负责企业接入,千问 App 等 C 端应用负责消费端验证,悟空等产品承接 B 端 Agent 场景。
其中,MaaS 是企业使用模型能力的重要入口。
企业可以通过阿里云调用千问模型,完成微调、部署、RAG 检索、工具调用和多 Agent 编排。这样,模型能力就不只停留在模型本身,而是可以变成可购买、可计量、可部署的云服务。
目前,阿里云 AI 相关产品收入保持增长,MaaS 也被视为云业务的重要增长方向。公开信息显示,阿里 AI 模型和应用服务 ARR 已突破 80 亿元,百炼 MaaS 开发平台客户数截至 2026 年 3 月同比增长 8 倍,覆盖电商、金融、制造等多个行业。
这也解释了为什么阿里在强调 Agent 的同时,仍然重视 LLM。吴泳铭曾把 LLM 比作 Agent 的“大脑”,意思是 Agent 的能力取决于基础模型。在阿里看来,Agent 是大模型进入业务场景的主要方式。模型越强、推理越快、成本越低,Agent 越容易在企业中规模化应用。
Qwen3.7-Max 的发布,正处在这条链路中。它既是千问模型能力的一次更新,也是阿里把模型、云服务、MaaS、应用入口和真实业务场景连接起来的一步。





京公网安备 11011402013531号