当前位置: 首页 » 资讯 » 科技头条 » 正文

千问3.5以小胜大,阿里巴巴的阳谋藏不住了

IP属地 中国·北京 编辑:李娜 钛媒体 时间:2026-02-17 18:10:02

文|TechPulse

作者 | 张帅

编辑|盖虹达

大模型领域的“春晚”频率,已经快让从业者跟不上节奏了。

2月16日除夕夜,阿里巴巴开源全新一代大模型千问Qwen3.5-Plus,性能媲美Gemini 3 Pro,登顶全球最强开源模型,不论从哪个方面,都可以说是给大模型行业的蛇年画上一个句号。

Qwen3.5-Plus总参数3970亿,但实际运行时的激活参数仅为170亿,性能就超过了万亿参数的Qwen3-Max模型,算力部署成本降低60%,推理速度提升8倍,更别提还是一个原生多模态模型,Agent能力大幅加强,API价格每百万Token低至0.8元。

更好、更快,还更省钱了,这当然不是千问独有的特性,但千问是毫无争议的标准答案,知道怎么做和做出来,是两回事——大模型就是一帮这个星球上最聪明的大脑,在做最复杂的实现。

稍早时间,字节跳动、MiniMax、智谱等国内厂商发布了自己的大模型,GPT-5.3 Codex与Opus 4.6也先后亮相,两种发布风格其实挺有意思。

在硅谷,OpenAI或Anthropic还习惯于扮演科技时代的预言者,他们的每一次更新都透着一种试图定义文明走向的宏大叙事感;而在国内,以阿里Qwen为典型代表,更像是一种极其务实且凶猛的工业扩张,满眼都是怎么让AI应用到具体场景。

聊到应用,当然就到了中国企业的舒适区,这也是为何春节AI大战,众多应用被推到台前,与以往不同的是,过去是有了模型,摸索能做什么应用,现在是应用场景的需求反过来去推动模型的发展。

在AI大航海时代,只有那些更聪明的船长,那些能以更低能耗航行更远距离的船只,才能最终抵达前人未至的新大陆。

变“小”的千问,怎么还变强了?

过去两年,硅谷乃至全球的AI共识一直笼罩在Scaling Law的既定路基下,更多的算力、更大的参数、更多的数据,等于更好的大模型。

但这种“大干快上”的扩张正在撞上两堵无形的墙,一堵是Transformer架构随序列长度增加而呈平方级爆炸的计算复杂度,另一堵则是让无数企业望而却步的推理成本。

这很容易让人联想到CPU时代的安迪-比尔定理(Andy and Bill’ s Law),硬件提升的性能,迅速被更吃资源的软件消耗殆尽,在大模型时代,架构迭代和算法优化释放出的算力红利,被参数量的通胀和上下文长度的堆叠耗殆尽。

如果这件事注定无法避免,那么千问3.5就让每一丝算力都能发挥出更大的价值。

传统的Transformer架构虽然强大,但它在处理超长文本时极其“重”,每多读一行字,内存和算力的负担就成倍增加。

为了打破这个僵局,业界曾尝试过各种路径,比如稀疏注意力、线性注意力、状态空间模型等,但往往陷入“性能提升则精度下降”的二律背反,要么保住效率,牺牲精度;要么保住性能,成本依旧高昂;要么提出全新架构,却难以融入现有大模型体系。

千问3.5走出了一条“大道至简”的道路,其性能跃升的背后,是对Transformer经典架构的重大创新突破。千问团队自研的门控技术成果,曾斩获全球AI顶会2025 NeurIPS最佳论文。

这不是一篇理论性质的论文,该前沿技术已融入到千问3.5创新的混合架构中去,团队结合线性注意力机制与稀疏混合专家MoE模型架构,实现了397B总参数激活仅17B的极致模型效率。

如果用通俗的话来理解,它并不提前裁剪信息,而是在注意力计算真正发生之前,引入一个可学习的“门控”(Gated Attention),先对信息做一次动态评估,再决定哪些部分用完整算力精算,哪些部分用更低成本处理。

从架构层面看,它还补上了MoE长期存在的一块短板。过去的MoE虽然已经实现了参数层面的稀疏激活,但注意力计算本身依然是全量执行,真正最重的那部分开销并没有被触动。

Gated Attention则把“是否值得计算”这件事直接前移到了注意力内部,让注意力本身也具备了可选择计算路径的能力。这意味着稀疏化第一次不只是发生在前馈网络阶段,而是深入到了Transformer最核心的计算单元里。

也正因为如此,它能够同时做到过去行业很难兼得的三件事:推理更快、成本更低,同时性能上限不受损。

原生多模态,牵一发而动全身

在当前的大模型赛道上,多模态已经成为新的焦点,但大多数现有方案仍停留在“模态叠罗汉、参数堆积”的老路上,试图把图像、文本、视频、表格等各种模态直接拼在一起,再用海量参数去支撑这种叠加,以求在Benchmark上刷出亮眼成绩。

然而,这种方式存在明显的局限,智力水平受限,推理效率低下,原因也很简单,每增加一个模态,计算量和内存需求呈指数级上升,模型的大脑被迫同时激活更多部分,但推理能力却没有成比例提升。

千问3.5是千问系列首个原生多模态模型,性能超过上一代旗舰模型——万亿参数的Qwen3-Max,但参数量却不到其40%,这背后的技术突破,值得深挖。

原生多模态的难点,在于让模型同时理解不同类型信息、建立模态间逻辑,并高效推理。

文字、图像、视频、音频各自的表达方式差异巨大,要在同一空间中理解它们的关系,本身就是技术挑战。更棘手的是跨模态对齐,图像与文字、视频与字幕、图表与说明的逻辑对应,如果处理不好,模型就可能“睁眼瞎”。

数据稀缺和训练成本也是瓶颈。高质量多模态标注难得,训练中,图像编码器、视频序列处理器和跨模态注意力层让算力消耗大,梯度易不稳,推理效率低下。

长上下文、多轮推理等任务,更要求模型动态调度注意力与算力,否则消耗呈指数级增长而理解能力提升有限。总之,简单堆模态或扩参数无法解决这一核心瓶颈。

如前所述,千问3.5的技术创新紧密耦合且相互增强,门控注意力让模型在处理长文本和多模态信息时能按需分配算力,保持推理效率与智力上限;线性注意力与稀疏MoE架构进一步降低长上下文的计算成本,让超大模型在实际使用中也能高效运行;原生多模态训练则为模型张开“眼睛”,让文字、图像、视频等信息在同一个认知空间里自然融合,同时强化推理、任务规划和空间理解能力。

这些创新并非孤立存在:高效的计算架构保证了多模态训练可行,跨模态能力反过来又推动注意力机制的优化,推理效率和认知能力相辅相成。

正因为如此,千问3.5才能在文本理解、视觉分析、视频理解、Agent执行、代码生成等多维任务中表现均衡而突出,形成一套完整的、可落地的智能体系。

千问3.5在MMLU-Pro认知能力评测中得分87.8分,超越GPT-5.2;在博士级难题GPQA测评中斩获88.4分,高于Claude 4.5;在指令遵循IFBench以76.5分刷新所有模型纪录;而在通用Agent评测BFCL-V4、搜索Agent评测Browsecomp等基准中,千问3.5表现均超越Gemini 3 Pro。

原生多模态训练,也带来千问3.5的视觉能力飞跃:在多模态推理(MathVison)、通用视觉问答VQA(RealWorldQA)、文本识别和文件理解(CC_OCR)、空间智能(RefCOCO-avg)、视频理解(MLVU)等众多权威评测中,千问3.5均斩获最佳性能。

大模型时代,阿里的阳谋

技术层面的紧耦合,其实是战略意志的体现,阿里巴巴的芯片、大模型,云基础设施等,最终是要为阿里巴巴的未来价值而服务。

就像云计算时代决定格局的不是CPU主频,而是虚拟化技术;移动互联网时代决定格局的不是带宽峰值,而是分发效率;到了大模型时代,真正决定应用爆发速度的,也不会是模型规模,更可能是每一次推理被调用的成本。

阿里巴巴比更多人更早更深刻地看到了这一点,自此出发,就能理解阿里巴巴的全盘布局。

在应用层面,1月15日,千问App发布全球首个消费级AI购物Agent。春节活动期间,全国超过1.3亿人第一次体验AI购物,说了50亿次“千问帮我”,千问一跃成为国民级AI助手。在全球首次实现大规模真实世界任务执行和商业化验证。

作为千问App的基座模型,千问3.5的Agent能力也大幅增强,实现了从Agent框架到Agent应用的新突破,可自主操作手机与电脑,高效完成日常任务,在移动端支持更多主流APP与指令,在PC端可处理更复杂的多步骤操作,如跨应用数据整理、自动化流程执行等,显著提升操作效率。

同时,千问团队构建了一个可扩展的Agent异步强化学习框架,端到端可加速3到5倍,并将基于插件的智能体Agent支持扩展至百万级规模,将进一步打开大模型在工作和生活中帮人办事的想象空间。

另一方面,阿里不仅持续推出SOTA级模型,同时通过开源开放策略,让任何人都能免费使用。这使千问迅速成为全球最受欢迎的开源模型,也为创新提供了肥沃土壤,激发了大量新的应用与创意。

目前,千问模型的开源数量超400个,衍生模型数量突破20万个,下载量突破10亿次,远超美国的Llama,包括李飞飞团队、爱彼迎等全球公司和机构都在使用千问模型。

规模化必然导致边际成本的降低,这是阿里云基础设施的强项。依托阿里云与平头哥自研芯片的支持,千问的推理效率得以进一步提升,更好满足企业级应用需求。模型、芯片与云端资源的深度耦合,实现了“1+1+1>3”的协同效应,不仅充分释放了芯片算力潜力和集群效率,也显著提高了模型训练与推理的整体性能。

例如,真武芯片针对以Qwen3为代表的主流MoE架构模型做了大量优化,可满足千问大模型对大规模计算的需求。得益于模型、芯片以及云的协同创新,千问3.5的价格进一步探底,API每百万Token输入低至0.8元,是同等性能Gemini-3-pro的1/18。

这样的策略不仅让千问在企业端备受欢迎,也让阿里云再次进入高速增长期。沙利文数据显示,千问在中国企业级大模型调用市场中位居第一,并成为阿里云新增需求的主要驱动力,带动计算、存储及数据库等基础资源消耗的增长。

根据市场调研机构Omdia数据,2025年第三季度,中国大陆云基础设施服务市场规模达到134亿美元,同比增长24%,市场已连续第二个季度实现20%以上的同比增长,阿里云在中国云基础设施服务市场的份额则提升至36%,AI相关收入已连续九个季度实现三位数同比增长,继续保持市场领先地位且优势进一步扩大。

千问3.5这一轮技术跃迁的价值,更像是阿里巴巴一场早有预期的“阳谋”,不只是把性能做上去,当长上下文、多轮推理、Agent工作流开始变成默认配置时,模型才会真正变成这个时代的基础设施,技术与商业在这里协同,算力与认知在这里形成闭环。

在大模型时代,阿里玩的是一盘既看得见的技术棋,又布局深远的商业棋。

标签: 模型 模态 注意力 算力 架构 全球 时代 技术 效率 视频 性能 基础设施 市场 芯片 成本 数据 空间 图像 消耗 开源 能力 原生 参数 任务 资源 团队 线性 信息 文本 论文 中国 文字

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。