阿里发布新一代千问旗舰模型Qwen3.7-Max，登顶最佳国产模型

IP属地中国·北京 编辑：沈如风 InfoQ 时间：2026-05-20 22:12:57

撰稿 | 150 克
大模型进入高速迭代的第三年，行业关注的重点正在发生变化。
过去，外界衡量一家大模型厂商的能力，主要看参数规模、基准测试成绩、盲测榜单排名，以及模型在开放对话中的表现。这些指标仍然重要，但已经不足以回答一个更现实的问题：模型能否真正进入工作流程，稳定调用工具，处理复杂任务，并带来实际效率提升。
5 月 20 日，阿里巴巴发布新一代千问旗舰模型 Qwen3.7-Max。
单看这次发布，它像是千问的一次模型升级。但放在过去几个月的产品演进中看，方向就比较清楚：千问 3.x 系列持续强化编程、长上下文、工具调用、跨框架兼容和长程任务处理能力。这些能力指向同一个变化——模型正在从回答问题，走向执行任务。
这也反映出阿里对大模型竞争的未来判断。下一阶段，模型不应只停留在对话和内容生成上，而需要进入研发、办公、数据分析、客户服务、企业运营等具体场景，理解需求、拆解步骤、调用工具，并完成更复杂的工作。
因此，Qwen3.7-Max 的发布是阿里把模型、云、MaaS、开发者工具和真实业务场景连接起来，参与 Agent 时代竞争的一个重要节点。
1三个月三次迭代，千问位列国产模型第一
大模型行业的竞争周期正在缩短。
过去，重要模型版本通常半年或一年发布一次。如今，模型更新频率明显提高。厂商需要更快吸收评测反馈、用户调用数据、真实业务需求和工程优化结果，并把这些反馈转化为下一轮训练和产品迭代。
千问正在成为这一趋势中的“领跑者”。
近三个月内，千问旗舰模型连续迭代 Qwen3.5、Qwen3.6、Qwen3.7 三个版本。从 3 月 20 日 Qwen3.5-Max-Preview 亮相，到 4 月 20 日 Qwen3.6-Max-Preview 发布，再到 5 月 20 日 Qwen3.7-Max 发布，千问保持了稳定的月度更新节奏。这样的迭代速度，即便放在全球大模型厂商中，也并不常见。
与此同时，开源模型也在扩大千问的影响力。Qwen3.6-27B、Qwen3.6-35B-A3B 等模型在开源社区获得较多关注，被视为适合本地部署和二次开发的代表。
不过，千问近期最重要的变化，并不只是更新更快，而是方向更集中。
过去，大模型发布往往围绕参数规模、综合榜单和推理能力展开。到了千问 3.x 系列，这一重点开始更明确地转向 Agent。Qwen3.5 强调“原生多模态智能体”，Qwen3.6-Plus 强调“面向现实世界智能体”，随后发布的多个版本，也都把 Agentic Coding、工具使用和工程任务作为重点。
Qwen3.7-Max 也延续了这一方向。
在第三方机构 Arena 全球大模型盲测总榜中，Qwen3.7-Max 超过 Kimi-K2.6、DeepSeek-v4-pro、GLM-5.1，与 GPT、Claude、Gemini 等最强模型接近，位列国产模型第一。
在通用智能体方面，Qwen3.7-Max 也有明显提升。它在 MCP-Atlas、MCP-Mark、SkillBench 等现实能力测试中表现优异，超过 GLM-5.1、Kimi-K2.6 等模型，创下国产模型新高；在 Kernel Bench L3 上，也展示出较强的 GPU 内核优化能力。
推理能力方面，Qwen3.7-Max 在 GPQA Diamond、HLE、HMMT 2026 Feb、IMOAnswerBench 等核心测评中，均超过 Claude-Opus4.6 及所有国产模型。
通用能力与多语言方面，Qwen3.7-Max 在指令遵循 IFBench 评测中取得 79.1 分，刷新新高；在多语言理解和翻译相关的 WMT24++、MAXIFE 评测中也保持领先。
这些结果说明，千问的模型演进正在围绕 Agent 所需能力展开：更长的上下文、更稳定的工具调用、更强的代码理解能力、更好的多轮任务保持能力，以及更适合规模化部署的推理效率。
也就是说，Qwen3.7-Max 不是一次单纯的“冲榜”，而是千问 Agent 路线上的阶段性结果。
2编程与长程任务突破背后，千问模型的进化暗线
在 Agent 场景中，编程是最早进入高强度竞争的领域。
软件工程天然适合被拆解、执行、验证和迭代。一个 CodingAgent 不只是生成代码，还要理解需求、阅读代码仓库、修改文件、运行命令、查看日志、定位错误，并根据反馈继续修复。
这正好对应 Agent 的核心能力：规划任务、调用工具、执行步骤、检查结果和自我纠错。
因此，千问最近几代模型都在持续强化编程能力。
最新发布的 Qwen3.7-Max 在编程智能体能力上继续突破。在 SWE-Pro、SWE-Multilingual、Terminal Bench 2.0-Terminus、SWE-bench 系列及 SciCode 等测评中，Qwen3.7-Max 表现领先，较 Qwen3.6-Plus 大幅提升，并超过 DeepSeek-v4-pro-Max、Claude-Opus4.6、Kimi-K2.6 等模型。
这代表了编程模型竞争的变化。单纯生成代码的价值正在下降。更重要的是理解复杂代码仓库、自主调用工具、运行测试、修复错误，并在多轮反馈中持续调整。模型正在从“代码助手”向“虚拟工程师”演进。
在我的实际测试中，Qwen3.7-Max 也体现出这种变化。
我使用 Cursor、Cline，并通过 OpenAI Compatible 协议接入千问最新模型 API，向模型提出了一个完整网页开发任务：

制作一个名为“Hacker News 热门项目追踪页”的网页，抓取 Hacker News 的 Top、Show、Ask 内容，每日更新，并给出推荐分析，判断技术媒体当天应关注哪些在开发者社区中热议的话题或项目。推荐维度包括讨论热度、技术前沿度、创业信号、开发者关注度，以及话题本身的传播潜力。
在这项任务中，Qwen3.7-Max 一次性完成了较成熟的交付物，推理速度也很快，在一分钟内完成结果。
此前多款模型在同类任务中曾出现失败，而此次测试中，Qwen3.7-Max 的完成度接近 Claude Code，也较 Qwen3.6 系列在一次成型概率和最终效果上有明显提升。
阿里内部的一个长程任务测试，也体现了这一方向。
在测试中，千问 3.7 被放到一个此前没有接触过的新硬件平台——平头哥真武 M890 上，任务是优化一个生产级注意力内核算子。模型没有现成性能 profile，没有硬件文档，也没有示例实现，只拿到了任务描述、SGLang+Triton 参考代码和评测脚本。
在这一环境中，模型连续工作 35 小时，执行数百次内核评估和上千次工具调用，完成代码编写、编译、性能分析和迭代优化流程。最终，内核速度在参考实现基础上提升了一个数量级。
更值得注意的是，在连续运行 30 小时后，模型仍能发现新的优化空间，这说明它不是在完成一次简单指令，而是在较长时间内保持目标、分析反馈并调整路径。
这个案例说明了 Agent 的一个关键方向：当大模型具备较强的推理、编程和工具调用能力，并被放入真实工程环境中，它有机会承担过去需要专业工程师长时间推进的复杂任务。
ClaudeCode、Codex、QwenCode 等产品背后，都是同一个判断：下一阶段的模型竞争，不只是比谁写代码更快，而是比谁能让模型长期、稳定地执行工程任务。
不过，阿里的特殊性在于，它拥有大量真实业务和基础设施场景。芯片、云、数据库、电商、物流、支付、出行、本地生活，都可以为 Agent 提供复杂任务环境。这些场景既能测试模型，也能为模型迭代提供反馈。
此外，千问在不同 Agent 框架中的兼容性也值得关注。目前，Qwen3 系列已经在 ClaudeCode、OpenClaw、QwenCode 等框架中被验证。在没有针对单一框架做特殊训练的情况下，它仍能迁移编程、工具使用和长程规划能力。
这意味着，千问已经成为不同 Agent 系统都可以调用的通用模型底座。
3MaaS 成为关键接口，阿里重塑 AI 基础设施链路
放到阿里的整体布局中看，Qwen3.7-Max 不只是一次模型更新，也关系到阿里在 AI 基础设施上的进一步布局。
阿里正在把芯片、云、模型、MaaS、开发者工具和应用入口连接起来。在 2026 阿里云峰会现场，阿里云宣布面向 Agentic 时代升级，并发布新的“芯—云—模型—推理”技术体系。
这一布局的背景，是企业使用 AI 的方式正在变化。
在传统云计算时代，企业购买的主要是服务器、存储和算力时长。到了 Agent 阶段，企业消耗的不只是算力本身，还包括模型处理任务、生成内容、调用工具和完成工作的能力。这些能力最终都会体现在 Token 使用上。
2026 年 3 月，阿里成立 Alibaba Token Hub，简称 ATH，由吴泳铭直接负责。这个组织调整，也可以放在这一背景下理解：阿里正在把 Token、模型服务和业务场景放到同一条链路中考虑。
在阿里的体系中，平头哥等基础设施提供底层支撑，阿里云负责算力和分发，千问负责基础模型，MaaS 负责企业接入，千问 App 等 C 端应用负责消费端验证，悟空等产品承接 B 端 Agent 场景。
其中，MaaS 是企业使用模型能力的重要入口。
企业可以通过阿里云调用千问模型，完成微调、部署、RAG 检索、工具调用和多 Agent 编排。这样，模型能力就不只停留在模型本身，而是可以变成可购买、可计量、可部署的云服务。
目前，阿里云 AI 相关产品收入保持增长，MaaS 也被视为云业务的重要增长方向。公开信息显示，阿里 AI 模型和应用服务 ARR 已突破 80 亿元，百炼 MaaS 开发平台客户数截至 2026 年 3 月同比增长 8 倍，覆盖电商、金融、制造等多个行业。
这也解释了为什么阿里在强调 Agent 的同时，仍然重视 LLM。吴泳铭曾把 LLM 比作 Agent 的“大脑”，意思是 Agent 的能力取决于基础模型。在阿里看来，Agent 是大模型进入业务场景的主要方式。模型越强、推理越快、成本越低，Agent 越容易在企业中规模化应用。
Qwen3.7-Max 的发布，正处在这条链路中。它既是千问模型能力的一次更新，也是阿里把模型、云服务、MaaS、应用入口和真实业务场景连接起来的一步。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

微软Teams加强第三方AI智能体权限管理，需会议组织者确认后放行

互联网的meme危险了

工业互联网发展迎来新机遇（锐财经）

高考生填志愿前，都该读一遍DeepSeek的招聘帖

华为用户不寂寞！全国首个全场景开源鸿蒙养老院落地：支持无感监测、主动预警

关键考验明日来袭：三星Q2营利料狂飙17倍但AI支出前景暗藏风险

全站最新

微软Teams加强第三方AI智能体权限管理，需会议组织者确认后放行

互联网的meme危险了

工业互联网发展迎来新机遇（锐财经）

高考生填志愿前，都该读一遍DeepSeek的招聘帖

热门推荐

龙大转债涨停、股价涨9.7%，ST龙大启动庭外重组“找钱”

谷歌跳票之后终定档：Gemini 3.5 Pro七月硬刚DeepSeek V4，全新底座不再"挤牙膏"

全球首例AI智能体勒索攻击浮出水面：无需人类干预的自动化“作案”链条

微软Teams加强第三方AI智能体权限管理，需会议组织者确认后放行

互联网的meme危险了

工业互联网发展迎来新机遇（锐财经）

优必选99万机器人伴侣续航撑不过一晚？ “赛博伴侣”引爆争议

高考生填志愿前，都该读一遍DeepSeek的招聘帖

华为用户不寂寞！全国首个全场景开源鸿蒙养老院落地：支持无感监测、主动预警

关键考验明日来袭：三星Q2营利料狂飙17倍但AI支出前景暗藏风险

AI时代游戏主机还能抢占客厅吗？这家家电厂商押注了

Token支出指数暴跌近20%！AI“牛熊激辩”正围绕这张图展开？

2026量子计算迟到的狂欢：能拿订单、奔赴IPO、市值破百亿

“AI狂欢”末日将至？“大空头”发出警告

印度代工厂被黑，苹果最怕泄露的不是真机照片