日前,一组来自全球最大AI模型API聚合平台OpenRouter的数据,在硅谷和中关村同时引发强烈震动:中国大模型的周Token调用量攀升至5.16万亿,而同期美国模型跌至2.7万亿。这是历史上中国AI首次在这一关键指标上实现全面超越,领先幅度接近一倍。
这个数字的意义远比表面看起来更为深远。Token调用量并非简单的点击率或用户数,它直接反映的是开发者和企业用户对一款AI模型的真实使用深度——每一次代码生成、每一轮文档改写、每一个复杂任务的拆解执行,都需要消耗真金白银的Token。这是一张用脚投票的成绩单,是全球开发者用实际行动给出的市场判决书。
更值得玩味的是,OpenRouter平台的用户中美国开发者占比高达47.17%,而中国开发者仅占6.01%。这意味着,推动中国模型登顶的主力军,恰恰是那些来自硅谷、来自欧洲的海外开发者。随着硅谷的创业者们开始用中国的开源模型搭建产品原型,欧洲的企业开始将核心业务流程接入中国厂商的API,一场静默却深刻的产业迁移正在发生。
被低估的“雕花”哲学
长期以来,西方观察者对中国AI的叙事始终围绕一个核心假设:算力决定一切。在这套逻辑下,美国凭借对先进制程芯片的出口管制,已然构筑起一道难以逾越的技术护城河。然而,2026年初的市场数据正在无情地解构这套叙事。
![]()
事实上,中国AI产业早已发展出一套独特的生存哲学——“雕花”。这个源自工匠传统的比喻,精准描述了中国工程师群体在资源受限条件下的技术路径:既然无法获得最顶级的训练算力,那就把现有算力的每一分潜能都压榨到极致;既然单卡性能存在代差,那就在分布式架构、混合精度训练、模型剪枝量化上做到全球领先。
这种哲学在DeepSeek身上体现得淋漓尽致。2025年初发布的V3模型以不到600万美元的训练成本,达到了与OpenAI GPT-4o相当的性能。这个数字让整个硅谷侧目——彼时,训练一个同等规模的前沿模型,美国公司的典型预算在数亿美元量级。
更关键的是,训练成本的压缩只是“雕花”哲学的上半场,真正决定商业胜负的战场在推理端。一个大模型的生命周期中,训练是一次性的巨额投入,而推理则是持续不断的运营成本。对于日活跃用户数以百万计的AI产品,推理成本往往占据总运营成本的70%以上。谁能把单个Token的生成成本压到最低,谁就能在价格战中获得绝对优势。
中国厂商在推理端的成本控制能力,已经到了令竞争对手瞠目结舌的程度。以OpenRouter平台公示的价格为例,MiniMax的M2.5模型输入价格为0.3美元/百万Token,输出价格为1.1美元/百万Token;而对标的Claude Opus 4.6输入价格为5美元,输出价格高达25美元。简单换算,中国模型的使用成本仅为美国竞品的十分之一甚至更低。
这种成本差距是如何实现的?答案藏在被称为“混合专家”(MoE)的架构创新中。
传统的稠密模型处理每一个请求都需要调动全部参数,而MoE架构引入了“门控网络”,将模型拆分为多个专精不同领域的“专家子网络”,每次推理只激活其中最相关的少数几个。这种“按需调度”的机制,让模型在保持庞大知识储备的同时,将实际计算量压缩到原来的几分之一。数据显示,采用MoE架构可将推理显存占用降低60%,吞吐量提升高达19倍。同样一块GPU,部署中国MoE模型时能服务的并发用户数是传统稠密模型的近二十倍。
除了算法架构的革新,中国AI厂商还在积极探索“垂直整合”的路径。这条路径的核心思想,是将上层的模型算法、中层的云计算基础设施和底层的AI芯片进行深度的一体化协同设计与优化。以阿里巴巴的“通义-云-芯”体系为例,这种从上到下的垂直整合能够通过极致的算力调度算法,实现对底层硬件资源的最高效利用,从而大幅降低AI服务背后的基础设施成本。
如果说成本优势是中国模型攻城略地的硬通货,那么对真实业务场景的深度理解与适配,则是决定用户粘性的软实力。
过去一年,全球AI应用正经历一场静默的范式转换:用户对大模型的期待正从“能聊天、会回答”的问答工具,转向“能干活、出成果”的生产力引擎。开发者不再满足于让AI解释一段代码的含义,而是要求它直接重构整个代码库;企业用户不再满足于让AI总结报告要点,而是要求它从零开始撰写可以直接提交的商业计划书。
这种需求升级对模型提出了全新要求:更长的上下文窗口、更强的指令遵循能力、更稳定的多轮对话连贯性,以及至关重要的更低使用成本。因为干活场景天然具有“长上下文、多轮迭代、大量输出”的特征,一个复杂任务的完成可能需要消耗数十万乃至上百万Token,如果单价过高,规模化应用根本无从谈起。
中国模型在这一转型中展现出了惊人的场景穿透力。以月之暗面的Kimi K2.5为例,这款于2026年1月底发布的模型,最引人注目的特性是其原生的Agent并行处理能力——能同时调度多达100个“Agent分身”并行工作,将复杂任务拆解为多个子任务同步执行,处理效率较传统串行模式提升3到10倍。据媒体报道,Kimi在发布K2.5后不到一个月的累计收入,已经超过其2025年全年总收入。这一爆发式增长并非来自C端用户的尝鲜热情,而是来自全球付费企业用户和API调用量的同步跃升。
智谱的GLM-5则在另一维度构建了差异化优势,提供200K的超长上下文窗口,能一次性处理相当于一本中等篇幅小说的文本量。对于需要处理长篇法律合同、技术文档的企业用户,这种“一次喂入、全局理解”的能力意味着工作流程的根本性简化。
这种对垂直场景的深度优化,正在重塑全球开发者对中国模型的认知。曾几何时,中国AI在海外市场的标签是性价比高但能力有限的廉价替代品;而如今,越来越多的开发者开始意识到,中国模型不仅便宜,而且在特定场景下的表现甚至优于价格高出十倍的美国竞品。知名风投机构a16z的合伙人Martin Casado观察到一个令人震惊的现象:如今在硅谷寻求融资的AI初创公司中,其路演核心模型高达80%使用的是中国的开源模型。
B端与C端的双轮驱动:中国AI的商业化纵深
与美国AI产业高度依赖C端订阅收入不同,中国AI厂商从一开始就选择了B端与C端并重的双轮驱动模式。这种战略选择既源于中国市场独特的产业结构,也为中国模型的全球化扩张提供了更为坚实的商业基础。
在C端市场,中国厂商展现出了极强的产品化能力。以Kimi为代表的新一代AI助手,通过深度绑定微信生态、优化移动端体验、推出灵活的会员方案,在中国年轻用户群体中建立了强大的品牌认知。与ChatGPT在美国市场的工具化定位不同,Kimi更多被用户视为智能伙伴——不仅完成工作任务,还能陪伴用户进行创意写作、学习辅导。这种情感连接带来的用户粘性,是单纯的功能比拼难以复制的。
然而,真正支撑中国AI商业化纵深的是B端市场的快速渗透。弗若斯特沙利文报告显示,在中国大模型B端市场,2025年下半年阿里巴巴的通义千问系列模型日均Token调用量占比达到32.1%,位列第一,较上半年的17.7%几乎翻倍。字节豆包以21.3%的份额紧随其后,DeepSeek以18.4%占据第三。这三家头部厂商合计占据了超过70%的B端市场份额。
B端市场的价值不仅在于收入规模,更在于对模型迭代的正向反馈效应。企业用户的使用场景往往比C端更复杂、更垂直、对准确性要求更严苛。当一款模型被大量企业用户在真实业务场景中使用时,它会持续收到关于“哪里还不够好”的反馈信号,而这些信号正是驱动模型持续优化的最宝贵燃料。
以阿里巴巴为例,通义千问通过阿里云的企业客户网络,接入了电商、物流、金融、制造等数十个垂直行业的真实业务系统;来自这些行业的海量使用数据和反馈,被用于模型的持续微调和版本迭代;而优化后的模型能力提升,则进一步吸引更多企业客户接入,形成滚雪球效应。a16z与OpenRouter联合发布的报告显示,阿里全系列模型的总Token调用量以5.59万亿位居全球第二,仅次于DeepSeek的14.37万亿。
这种B端优先的商业化路径,也使得中国AI厂商在面对价格战时拥有更强的战略定力。当C端订阅收入因免费替代品冲击而承压时,B端的长期合同和企业级服务费用能够提供稳定的现金流支撑。这种收入结构的多元化,是中国厂商敢于在API定价上采取激进策略的底气所在。
“Token通胀”与价值重构:AI商业模式的下一章
将视野从当下的市场份额竞争拉升到更长的时间尺度,一个更根本性的变化正在浮现:Token本身的商业意涵正在经历重新定义。
国联民生证券在近期研报中提出了一个颇具洞察力的概念——Token通胀。这并非指Token价格在上涨,恰恰相反,随着技术进步和规模效应,单个Token的价格正在持续下降。“Token通胀”描述的是另一种现象:单位时间内、单位用户的Token消耗量正在结构性上升。
这种“通胀”的驱动力来自三个层面。
第一层是用户行为转变:当AI从“问答工具”升级为“生产力引擎”,用户的单次交互深度显著增加,一个开发者使用AI重构中等规模的代码库可能需要消耗上百万Token。
第二层是Agent技术的普及:当AI从被动响应进化为主动规划、自主执行的智能代理,它会在完成复杂任务过程中多次调用自身或其他模型,每一步都在消耗Token。
第三层是推理强度升级:随着“思维链”等技术成熟,模型在输出最终答案前会进行大量“内部思考”,更强的推理能力意味着更长的思考链路,也意味着更高的Token消耗。
![]()
2025年下半年以来,中国AI模型的token调用情况(@心智观察所制图)
这三重驱动力叠加的结果是:即便单个Token价格下降,用户为完成同等价值任务所支付的总费用却可能保持不变甚至上升。对AI厂商而言,这意味着一个微妙但重要的商业模式转型——从“卖Token”到“卖成果”。
弗若斯特沙利文中国总监李庆预测,AI服务的商业模式正从单纯的“按量计费”向“燃料+成果”的混合模式演进。一方面,作为“燃料”的Token单价会持续下降;另一方面,随着AI向生产力工具转变,企业将更愿意为直接的“成果”付费——不是为消耗了多少Token付费,而是为生成了多少可用代码、完成了多少份报告付费。这将催生出更多基于订阅制的商业模式。
摩根大通在研报中做出极为乐观的预测:从2025年到2030年,中国Token消耗量的年复合增长率将达到惊人的330%,在短短五年间实现370倍的增长。这个数字的背后,是中国庞大的产业基础、丰富的应用场景,以及AI与实体经济深度融合的巨大潜力。
集群优势与生态韧性:中国AI的长期竞争力
理解中国AI在全球市场的崛起时,一个容易被忽视的关键因素是其产业生态的结构性特征。与美国市场高度集中于OpenAI、Anthropic、Google少数几家巨头不同,中国AI产业呈现出明显的"集群化"特征。OpenRouter最新榜单上,排名前五的中国模型分别来自MiniMax、月之暗面、智谱、DeepSeek四家不同公司。
上海财经大学特聘教授胡延平将这种格局形容为“AI中国团”。他指出,产业市场集中度并非越高越好。多家头部企业形成宽广的技术产业群落,而不是少数两三家寡头垄断,对于竞争创新和人才生态建设是好事,也有利于在中美AI竞争中形成集群优势。
这种集群优势体现在多个层面。首先是技术路径的多元化:MiniMax专注多模态融合,月之暗面深耕Agent能力,智谱强调超长上下文,DeepSeek以性价比著称——这种多元化使中国AI产业整体具备了更强的适应性和抗风险能力。当某一条技术路线遭遇瓶颈时,其他路线的探索者可以迅速补位。其次是人才流动的活力:多家头部企业的存在为AI人才提供了更多职业选择和发展空间,促进了知识扩散和最佳实践传播,提升了整个产业的平均水平。
最后是供应链的韧性:多家企业共同支撑的产业,系统稳定性和容错能力都显著增强。对于下游的应用开发者而言,多家可选供应商的存在意味着更强的议价能力和更低的锁定风险。
回望过去三年的AI产业演进,中国的角色经历了一次根本性转换。2023年初,当ChatGPT横空出世时,中国AI界的主流叙事是“追赶”——追赶OpenAI的技术里程碑,追赶美国的算力储备,追赶硅谷的创新节奏。2024年,追赶的叙事开始松动。DeepSeek以极低的训练成本复现了GPT-4级别的能力,证明了算力封锁并非不可逾越的天堑。2025年至2026年初,量变积累为质变。当MiniMax的M2.5在发布不足一周便登顶全球调用量榜首,当中国模型在OpenRouter平台的周调用量以近乎翻倍的优势领先美国,“追赶”的叙事已经无法描述现实。中国AI正在从“跟跑者”转变为“领跑者”,至少在商业化落地和市场渗透这一维度上。
这场转变的意义远不止于一组数据的高低。它标志着一种发展模式的验证——在资源受限的条件下,通过工程极致主义、成本创新、场景深耕和生态协同,同样可以构建全球领先的技术竞争力。它也预示着一种产业格局的重塑——AI的全球产业链将不再是美国设计、全球代工的单向流动,而将演变为中美双中心、多节点协作的复杂网络。
![]()
本文系观察者网独家稿件,文章内容纯属作者个人观点,不代表平台观点,未经授权,不得转载,否则将追究法律责任。关注观察者网微信guanchacn,每日阅读趣味文章。





京公网安备 11011402013531号