当前位置: 首页 » 资讯 » 科技头条 » 正文

千问 3.5 发布,四成参数超越万亿模型,大模型的竞赛逻辑变了

IP属地 中国·北京 编辑:江紫萱 赵赛坡 时间:2026-02-17 00:10:27

过去两年,大模型行业的主旋律是「做大」。参数从千亿堆向万亿,跑分纪录不断刷新,但一个矛盾也在同步加剧:模型越强,部署成本越高,真正用得起的企业反而越少。性能曲线和普及曲线正在背离。

2 月 16 日除夕当天,阿里巴巴开源了新一代大模型 Qwen 3.5-Plus,给出了一个不同方向的答案。这个模型总参数 397B,激活仅 17B,以不到 40% 的参数量超越了上一代万亿参数级的 Qwen3-Max,多项基准媲美甚至超越 GPT-5.2 和 Gemini 3 pro:MMLU-Pro 知识推理 87.8 分超越 GPT-5.2,博士级难题 GPQA 拿下 88.4 分超越 Claude 4.5,指令遵循 IFBench 以 76.5 分刷新所有模型纪录。API 价格每百万 Token 低至 0.8 元,仅为 Gemini 3 pro 的 1/18。

这组数据值得细看。它回应的核心问题已经从「谁更强」转向了「大模型该怎么变强」。

参数越多越好的时代结束了吗

芯片行业曾经历过类似的转折。2000 年代中期,英特尔单核主频逼近物理极限,整个行业转向了多核架构和能效比优化。竞争维度从「频率高低」变成了「架构优劣」。

大模型行业正在经历类似的拐点。继续堆参数,边际收益在递减,部署和推理的成本却在刚性增长。Qwen 3.5 换了一种思路:通过架构创新大幅压缩激活参数,让 397B 总参数中实际参与每次推理的只有 17B。效率的提升体现在具体场景中:32K 常用上下文场景下推理吞吐量提升 8.6 倍,256K 超长上下文场景下最大提升至 19 倍,部署显存占用降低 60%

与此同时,Qwen 3.5 完成了从纯文本模型到原生多模态模型的代际跃迁。上一代 Qwen3 的预训练建立在纯文本 Token 上,Qwen 3.5 则在文本和视觉混合 Token 上联合预训练,同时大幅新增 STEM 和推理数据。模型参数规模缩小了,感知世界的维度反而拓宽了。竞争的标准也随之变化:过去比参数量和跑分,现在要比谁能用更少的资源、更统一的架构,覆盖更多的能力维度

这种效率跃迁是怎么实现的?是某个单一技术突破的偶然产物,还是某种系统能力的集中兑现?回答这个问题,需要把视角从模型本身拉到阿里的组织能力上。

阿里凭什么先跑通了

稀疏 MoE、线性注意力、原生多 Token 预测,这些技术方向业界都有探索。但把它们整合进同一个模型并大规模跑通,需要几个条件同时具备。

第一个条件是硬件和模型的协同演进。阿里是少数同时拥有自研芯片、云基础设施和大模型团队的公司。平头哥的真武芯片针对 MoE 架构做了专项优化,可以从硬件层面适配极致稀疏结构的计算需求。Meta 过往做 Llama 系列、OpenAI 迭代 GPT 模型,都依赖业界通用 GPU,在硬件适配这一层缺少同等的自由度。模型架构越精细,硬件端的配合能力就越关键。

第二个条件是基础研究向产品的转化能力。千问团队的门控技术成果获得了 NeurIPS 2025 最佳论文奖,这项技术已经融入 Qwen 3.5 的混合架构,与线性注意力机制和稀疏 MoE 架构结合,实现了极致的参数效率。一年前的前沿论文变成今天产品中的核心组件,这条从研究到工程的转化路径,能看出团队的技术判断力和执行节奏。

第三个条件,也是最值得关注的,是阿里在原生多模态方向上的投入决心。目前行业大多数多模态模型走的是「分步组装」的路线:先训好语言模型,再接入视觉模块,中间靠适配层对齐。这条路线工程上更轻便,迭代也更快,但融合深度有限,经常出现视觉能力增强的同时语言能力下滑的现象。据了解,Qwen 3.5 从预训练第一天起就在文本和视觉混合数据上联合学习,走了一条前期投入更高、工程复杂度更大的路。训练工程上,Qwen 3.5 让不同模态各自选择最优的并行策略,在关键位置做跨模态对齐,最终多模态训练的吞吐量几乎追平了纯文本训练。通过 FP8/FP32 混合精度策略,激活内存减少约 50%,训练效率还提升了 10%。

深度融合的回报体现在评测数据上。在 MathVision、RealWorldQA、CC_OCR、MLVU 等多项权威评测中,Qwen 3.5 均取得最佳成绩。模型支持 2 小时视频的直接输入和时序理解,能把手绘草图转化为可运行的前端代码,还能作为视觉智能体自主操控手机和电脑完成多步骤任务。

阿里为什么愿意承担原生多模态更高的工程风险?一个合理的解读是:千问的定位从来都不只是追榜单的模型产品,它是阿里云 AI 服务的长期底座。企业级应用场景天然就是多模态的,一个要成为基础设施的模型,必须具备原生的跨模态能力。

当架构效率、芯片适配和原生多模态训练三者形成协同,最终的产物是一个全新的成本结构。这个成本结构对行业意味着什么?

成本结构颠覆如何改变竞争格局

Qwen 3.5-Plus 的 API 价格是同等性能 Gemini 3 pro 的 1/18。值得注意的是,这种极致的性价比来自模型架构效率、自研芯片优化和云基础设施的三重协同,并非补贴定价。当底层的成本结构被技术手段压缩了一个数量级,低价就具备了可持续性

这对闭源厂商构成了结构性挑战。OpenAI 和 Google 的 API 溢价建立在性能独占的前提上,市场上没有同级性能的替代品,客户就接受高价。一旦开源模型在性能上追平,同时价格低至 1/18,这个溢价的根基就动摇了。闭源厂商面对的挑战已经从「要不要降价」升级为「凭什么继续收费」。这让人想起移动操作系统的历史:Android 免费开放,Windows Mobile 收费授权,竞争的胜负最终取决于哪种模式能更快地聚拢生态。

阿里的战略意图在数据中已经很清晰。千问(Qwen)在中国企业级大模型调用市场排名第一(沙利文数据)。阿里云在 2025 上半年中国 AI 云市场的份额达到 35.8%,超过第二到第四名的总和(Omdia 数据),份额从上季度的 33% 继续攀升至 36%。千问已经成为阿里云新增需求的主要驱动力,带动计算、存储及数据库等基础资源的消费增长。开源模型是入口,云基础设施才是最终的商业目的地。

开源生态的飞轮也在加速验证这条逻辑。千问开源模型数量超过 400 个,开发者基于千问构建的衍生模型突破 20 万个,全球下载量突破 10 亿次,单月下载量超过第 2 到第 8 名的总和。Qwen 3.5 进一步扩展支持 201 种语言,词表从 15 万扩展至 25 万。在应用层面,千问 App 今年 1 月发布的 AI 购物 Agent 在春节期间 6 天完成了 1.2 亿笔订单,成为全球范围内大模型在真实消费场景中规模最大的商业化验证之一。

架构竞赛时代的三个问题

Qwen 3.5 的发布标志着大模型行业竞争逻辑的转换。过去两年的参数竞赛正在让位于架构竞赛,效率和成本开始取代参数规模成为核心竞争维度。这场转换留下了三个值得持续观察的问题。

当开源模型在性能和成本两个维度同时逼近闭源,闭源阵营的护城河还剩什么?是数据飞轮、用户粘性,还是垂直场景的深度优化?阿里的「模型+芯片+云」垂直整合能力,在行业中还有多少玩家具备类似的条件?原生多模态一旦被更多实践验证,当前主流的分步组装路线还有多大的生存空间?

这些问题的答案尚未明朗。但可以确定的是,大模型行业的竞争已经进入了一个新阶段。在这个阶段里,谁对模型架构、硬件协同和工程效率有更深的理解,谁就更有可能定义下一轮竞争的规则。

从 Qwen 2.5 到 Qwen 3 再到 Qwen 3.5,阿里已经连续三代在开源模型的关键能力维度上稳定输出天花板级产品。当这种稳定性持续足够久,它本身就构成了一种竞争优势

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。