刚刚，中国AI闯入全球编程前二！前面只剩Claude

IP属地中国·北京 新智元 时间：2026-05-27 00:19:40

新智元报道

Code Arena最新放榜，Qwen3.7-Max以1541分冲进全球第四，成为前五中唯一的非Claude模型。编程，中国模型第一次杀到这个位置。
就在今天，Code Arena最新榜单出炉！
Qwen3.7-Max以1541分闯入全球前四，一举超越了GPT-5.5、Gemini 3.5 Flash等一众顶尖模型。
排在它前面的，只剩Claude Opus 4.7和Opus 4.6。

换句话说，在全球编程模型的竞技场上，阿里是唯一杀进这张牌桌的中国厂商，仅次于Anthropic，位列第二。
Qwen3.7-Max闯入全球前五
唯一非Claude模型
其实在Code Arena放榜之前，Qwen3.7-Max在海外开发者圈子里已经杀出了名声。
Atomic Chat做了一场硬碰硬的对比，让Opus 4.7、GPT-5.5和Qwen3.7-Max同台竞技，任务是写一个能自我训练的俄罗斯方块AI。
结果，Qwen3.7-Max不仅只用$1.32的token成本就把Opus 4.7和GPT-5.5都超越了，而且性能还提升了56%。

另一位海外开发者选择让Qwen3.7-Max构建了一个宇宙的3D模型，效果足以用震撼形容。

在「3D像素风微缩宝塔模型」的生成任务中，Qwen3.7-Max的输出速度和质量同样全面胜出。

左右滑动查看
开发者Paul Couvert更是盛赞，Qwen3.7-Max接入Hermes Agent和OpenCode之后，基本可以替掉GPT-5.5和Opus 4.7。

编程，太能打了
不过跑分再高，不如真刀真枪拉出来练练。
我们给Qwen3.7-Max安排了一场硬核的「赛车游戏」挑战。
一段详细的Prompt丢进去，不一会儿功夫，Qwen3.7-Max直出一个可玩的HTML的文件。

第一版有个小bug，A/D转向键左右搞反了。
但经过第二轮简单对话微调，一个体验完整的3D赛车游戏就跑了起来。

打开的瞬间，说实话，有点被惊到了。
4车同台，3圈环形赛道竞速，赛道上散落着100多枚金币，碰到障碍物会减速、失控。
赛后成绩面板，排名、用时、金币数、最快单圈，一项不缺。
但真正让人意外的，是两个只有Qwen3.7-Max做到的细节。
一个是开始界面。四个模型横向测完，只有它给游戏做了一个正经的开始页面，点「Start」才进入比赛。其他三家全是打开即跑，连个标题画面都没有。
另一个是音效。Prompt最后附了一条要求，加上发动机轰鸣和吃金币的音效。四个模型里，也只有它把这个bonus吃进去了，引擎声和金币叮咚都安排上了。

再看看其他选手的表现。
Gemini 3.5 Flash的画面明显单薄了一档，缺少那种呼之欲出的立体感。
UI布局也有问题，仪表盘信息分散在屏幕四角，视觉焦点一盘散沙。
相比之下，Qwen3.7-Max的处理方式是把关键指标集中到画面中央，更符合玩家视线的自然落点。

Claude Opus 4.6的效果，有点让人一言难尽了。
不仅赛道上金币少得可怜，而且3辆AI赛车几乎同步行驶，毫无随机性，像复制粘贴出来的。
最后是GPT-5.5。
可以看到，画面质感确实比前两家强了不少，操作起来也更流畅。
但不知道为什么，金币被做成了黄色的「甜甜圈」……
造型倒是小事。关键是，Gemini、Claude、ChatGPT三家都修了好几轮bug才跑通全部功能。
只有Qwen3.7-Max首轮生成就基本可玩。
跑分接近，实测不虚，价格只有几分之一。剩下的结论，等开发者用脚投票就行了。
Agent时代的「基座」模型
Qwen3.7-Max之所以能在最卷的编程擂台上打出如此水平，答案就藏在它的产品定位里。
几天前，阿里发布Qwen3.7-Max的时候，给了它一个非常特殊的标签：Agent基座模型。

它生来，就是为长时间自主执行任务设计的模型。
内测数据显示，在一次自主编程任务中，Qwen3.7-Max连续运行35个小时，执行1158次工具调用。
最终生成的代码相较于Triton参考实现，达到了惊人的10倍几何平均加速。

更令人震撼的是它的「持久战」能力——
在推演进行到第30个小时之后，模型依然保持敏锐，持续挖掘出新的优化空间。
全程零上下文退化、零指令漂移、零死循环！
不得不说，这件事的难点不在1000次工具调用本身。MCP协议铺开之后，调1000次工具不算稀奇。
难点在于，35小时的连贯推理。
绝大多数模型跑长任务时会崩盘：要么上下文越积越乱，前半段定的目标到后面忘得干干净净；要么进入死循环，反复尝试同一个失败的方案。
Qwen3.7-Max把「持续做对事」这件事，做出来了。
核心技术揭秘
Qwen3.7-Max这波编程跃升，我们理解核心可能与两个训练方法的升级有关。
第一个是，环境扩展。
Qwen3.7-Max在做编程训练时，每个任务会被拆成三个独立维度，任务本身、执行框架、验证方式，三者自由组合。
同一道题，有时候在Claude Code的框架里做，有时候在OpenClaw里做，有时候换一种验证方式。
效果就像一个实习生被轮岗到了所有项目组。它被迫学会的是解决问题的通用策略，不是「在某个特定框架里怎么取巧」。
这解释了一个反直觉的现象，Qwen3.7-Max在Claude Code、OpenClaw、Qwen Code这几个框架里的表现都很稳，没有出现「在自家框架里很强、换一个就拉胯」的情况。

第二个升级是，长程自主执行。
在训练中，团队引入了「动态累积生存博弈」框架。
也就是，让模型在持续变化的模拟环境中做超过一千步的连续决策，自己建立假设、根据反馈调整策略，而且不能因为跑太久就「上下文腐化」。
这里有一个直观的数据，YC-Bench模拟创业公司经营一整年，Qwen3.7-Max做到了208万美元营收，是上一代（105万）的两倍。
更关键的是，它展现出了策略进化，中期遇到危机能自主调整方向，识别并拉黑恶意客户，最终收敛到稳定的执行循环。

这就是35小时kernel优化案例的底层支撑，也是为什么在Kernel Bench L3上，Qwen3.7-Max能让96%的场景跑出加速效果。
而编程还只是第一个战场。这套长程推理加工具调用的底子，指向的是一个更大的野心——通用Agent基座。
编程决赛，多了一个搅局者
Code Arena上线至今，考的从来都是硬活，多步推理、工具编排、完整项目交付，全是Agent级的真刀真枪。
今天，Qwen3.7-Max凭借着1541分的成绩楔进了第四的位置，卡在Opus 4.6 Thinking和Opus 4.6之间。
在这条Claude统治了大半年的赛道上，它给出了自己的回答，中国模型不只是追赶者，也可以是定义者。
全球编程模型的竞赛，已经不再是硅谷的独角戏了。
参考资料：
https://arena.ai/leaderboard/code/webdev

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

华为Pura 100系列打磨中：一大一小双尺寸明年登场

印度政府批准半导体2.0计划！投资超万亿打造全球半导体强国

寰宇航天：国家将统一管控可回收火箭相关试验

星链开始给狗打工了！全球首款“卫星狗项圈”发布：深山老林也有信号

台积电对美投资再加码6767亿元！美国晶圆厂将达10座、封装厂2座

华为撤回“世界”商标

全站最新

华为Pura 100系列打磨中：一大一小双尺寸明年登场

印度政府批准半导体2.0计划！投资超万亿打造全球半导体强国

寰宇航天：国家将统一管控可回收火箭相关试验

星链开始给狗打工了！全球首款“卫星狗项圈”发布：深山老林也有信号

热门推荐

生死时速最后关头，3.63亿元莱阳国资借款解围ST龙大

九安医疗：从医疗器械跨界AI投资，风口之上能否续写财富神话？

体重管理成新风口互联网大厂与线下品牌齐发力共筑健康新生态

通义千问正式接入苹果生态，国内Apple智能体验迎来重磅升级

简历石沉大海?千问把写简历、做PPT、筛脏数据拆成了一套可复制的AI办公流水线

华为Pura 100系列打磨中：一大一小双尺寸明年登场

印度政府批准半导体2.0计划！投资超万亿打造全球半导体强国

寰宇航天：国家将统一管控可回收火箭相关试验

星链开始给狗打工了！全球首款“卫星狗项圈”发布：深山老林也有信号

台积电对美投资再加码6767亿元！美国晶圆厂将达10座、封装厂2座

华为撤回“世界”商标

有外媒渲染中国提供开源AI模型是“陷阱”，外交部：反对以意识形态划线

千问首款AI智能体耳机将在WAIC亮相

台积电：人工智能相关需求极其强劲未来三年资本支出将显著高于过去三年

图片展示Windows XP经典壁纸拍摄地30年变迁，早已不是当年模样