当前位置: 首页 » 资讯 » 科技头条 » 正文

智荟月刊 | 词元经济方兴未艾 健康发展需闯几道关口?

IP属地 中国·北京 中国经济时报 时间:2026-06-04 08:21:21


让词元更有质量

——推动词元经济高质量发展

编者按词元(Token)正成为人工智能服务的核心计量、结算与统计单位。当前,词元经济呈现爆发式增长态势,各类应用场景层出不穷,但“有流量、无质量”“有消耗、难评价”等问题日益凸显:词元消耗量难以反映AI服务真实价值、定价机制混乱、高质量供给缺乏有效激励。

近日,国家数据局召开词元经济座谈会,明确将词元经济纳入工作体系,释放出推动行业从规模扩张转向高质量发展的强烈信号。中国经济时报社等机构的专家学者和部分知名企业代表应邀参会发言。本期《智荟月刊》以“让词元更有质量——推动词元经济高质量发展”为主题,特别邀请四位与会专家,围绕词元经济健康发展的核心议题展开深入研讨,并从政策、技术、经济与治理等维度带来前沿思考与务实建议,以飨读者。


习近平经济思想研究中心研究三部主任、研究员毛科俊

核心观点

我国词元经济健康发展面临着计量定价、数据供给、技术自主、算电协同、安全防护等诸多关键关口。能否跨越这些关口,决定着我国词元经济能否实现量质齐升,也在一定程度上决定了我国智能经济发展质量。

毛科俊 梁永坚

词元是大模型处理信息的最小信息单元。我国日均词元调用量从2024年初的1000亿,到2025年底的100万亿,再到今年3月突破140万亿,两年间增长超千倍。围绕词元的生产、调用、分发与结算所衍生形成的新型经济形态——词元经济,正在从理论探讨进入产业实践阶段,反映了人工智能正从技术攻坚阶段迈向价值兑现新阶段。然而,和任何新生事物一样,词元经济的健康发展绝非坦途。从当前实践看,我国词元经济健康发展面临着计量定价、数据供给、技术自主、算电协同、安全防护等诸多关键关口。能否跨越这些关口,决定着我国词元经济能否实现量质齐升,也在一定程度上决定了我国智能经济发展质量。

一、词元经济健康发展需跨越计量定价关

词元经济之所以能够成为现实,关键在于词元本身具备可计量、可定价、可交易属性,为原本难以度量的数据活化程度、智能服务规模提供了“度量衡”。词元计量标准的统一性与定价机制的科学性,是整个词元经济赖以健康运行的制度基石。

从计量层面看,词元缺乏统一的标准体系。词元是分词算法对输入文本进行切分后形成的产物。不过,具体切分逻辑内嵌于模型架构之中,对外部参与者而言透明度不高。而同一语义内容在不同模型的切分逻辑下,可能对应数量相差数倍的词元。这种技术上的“黑箱”特性,使得词元这一本应客观中立的计量单位,在现实中容易被掌握分词规则制定权的平台方影响,进而形成一种非对称计量权力关系。

从定价层面看,词元经济面临成本结构的非对称性、量与质脱钩的局面。词元生产的成本结构呈现极端的“L型”特征:大模型预训练阶段成本巨大,而一旦模型训练完成,生成额外词元的边际成本较低。随着用户持续增多,前期投入的巨额成本被不断摊薄,理论上可趋近于零。与此同时,相同数量的词元在不同场景中可能价值迥异:一份商业合约分析与一次日常闲聊所消耗的词元可能相近,但前者产生的经济价值可能是后者的成千上万倍。然而,当前无论是按量计费、订阅制还是混合式的大模型计价模式,本质都是基于词元消耗数量,而对词元生成质量陷入无差别定价,导致量质脱钩问题突出。这种计价单位的“均质化”假设,可能诱发开发者为节约成本而刻意缩短词元长度,而非着力提高回答质量,出现“劣币驱逐良币”的逆向淘汰。

从制度层面看,词元经济的治理能力滞后于市场实践。词元定价权高度集中于平台尤其是头部平台,用户与数据贡献者缺乏议价能力。平台单方面制定计价规则,即使不直接调整名义价格,也能通过微调分词器设计、上下文缓存策略等关键技术参数而间接影响交易,形成传统反垄断工具难以有效识别的新型市场权力,容易导致收益分配的结构性失衡。

破解计量定价困局,需要加快标准建设、完善定价机制、加强监管治理协同发力。在标准建设层面,尽快明晰词元统计口径、核算方法与分词规则的规范,建立分词器备案与计量审计制度。在定价机制层面,引入响应精度、任务完成率、安全合规性等质量指标,进行复合评价,使词元定价从单纯的数量计费走向量质并重计费。在监管治理层面,明确平台披露词元计量规则、通知价格调整、留存计费日志等方面要求,并建立健全第三方核验机制,切实保障用户的知情权与在不同平台间比价的能力。

二、词元经济健康发展需跨越数据供给关

数据为词元的形成提供了最基本的原材料。词元经济健康发展离不开数据供给尤其是高质量数据供给。

从数据质量看,词元经济健康发展不止于数据规模扩大,更依赖于数据质量的提升。2025年,我国年度数据生产总量达52.3泽字节,同比增长27.3%,数据生产总量占全球约27.4%。然而,我国数据供给面临数据规模扩张与高质量数据集不足的量质失衡困境。AI需要“精细粮”,相对线性增长的高质量数据却难以匹配AI的超线性发展预期,比如高端制造、教育培训、医疗诊断等垂直领域专业化、标准化、高可信度的数据依然稀缺,影响了专业场景下的大模型应用效果,制约着词元经济从通用服务领域扩大到专业赋能领域。

从数据流通看,“数据孤岛”现象依然存在。公共数据开发利用仍需加力推进,公共数据开放共享和安全保护的平衡难度较大。大量高价值数据沉淀在政府部门、社会组织、企业等的内部系统中,因安全顾虑、利益博弈或技术问题而无法有效流通。

从数据权益分配机制看,贡献与回报失衡的问题日益凸显。用户在消费词元时所产生的交互数据,可反哺上游模型的优化,通过“消费即生产”形成正反馈循环。然而,在这一价值共创链条中,用户贡献如何确认、平台能否无偿吸收用户在使用服务过程中形成的知识经验,是有待厘清的涉及生产关系的深层次问题。

破解数据供给困局,需要从提升质量、促进流通、强化激励等层面系统推进。在提升质量层面,深化行业高质量数据集建设行动,以场景需求为牵引,构建覆盖高端制造、教育培训、医疗诊断等高价值场景的“数据粮仓”。在促进流通层面,深化数据要素市场化配置改革,鼓励公共部门、科研机构、头部企业在安全前提下有序开放脱敏后的高价值数据,协同词元服务开发者共建解决方案,持续探索“词元交易”等新型交易模式。在强化激励层面,探索建立用户数据贡献的回馈机制,使用户能够依据其产生的数据价值而获得相应的合理报酬。

三、词元经济健康发展需跨越技术自主关

词元的生产、调用等效能高度依赖芯片性能、算法效率与算力协同调度水平。如果核心技术受制于人,词元经济的发展容易陷入“数字技术依附”。技术自主可控是词元经济健康发展的关键。

从供应链安全看,硬件、软件等层面存在不同程度的对外依赖。在硬件层面,高端GPU、EUV光刻机、高端EDA工具、光刻胶等产品的核心技术仍被国外少数大型厂商垄断,国产替代尚需时日。在软件层面,操作系统、IDE等同样面临对外依赖。在算法层面,核心算法仍被国外少数技术寡头垄断。

从基础研究看,底层原创能力不足是制约技术自主可控的关键瓶颈。大模型架构、高效分词算法、分布式训练框架等原创性突破仍主要源于国外。虽然我国在应用层创新层面十分活跃,涌现出一批优秀的模型和应用场景,但在基础理论、底层架构、算法范式等“根技术”领域,原创性累积不够。这种“应用强、基础弱”的创新结构,意味着我国词元经济的发展在相当程度上是在他国开辟的技术路线上进行优化和追赶,新技术方向开辟不足。而一旦技术范式发生重大变革,或国际科技合作环境恶化,我国词元经济的技术体系可能面临被动局面。

从技术生态看,研发、应用等各环节之间的协同不足制约技术水平整体提升。一个健康的技术生态不仅需要单点突破,更需要多点爆发、协同演进。否则,单个环节的自主可控难以转化为整个技术体系的自主可控。当前,我国在芯片设计、算法研发、应用开发等多个环节之间还存在协同不足的问题。比如,在软硬件协同方面,我国国产大模型与国产算力芯片之间的适配度不高,而算法框架和芯片架构之间的不适配会直接拉低训练效率、推高推理成本。

破解技术“卡脖子”困局,需要从补齐供应链短板、强化基础研究、优化技术生态等方面加力。在供应链层面,加大对关键软硬件研发等重点领域的扶持,着力突破瓶颈制约。在基础研究层面,加强对基础理论、底层架构等的前瞻性研究,鼓励探索新技术范式,为下一代技术变革储备原创性成果。在技术生态层面,推动算法、芯片、应用等环节协同演进,构建良性技术生态。

四、词元经济健康发展需跨越算电协同关

算力的尽头是电力。词元生产成本中电力支出比重较高。据测算,电力成本占数据中心运营成本的50%至70%,这几乎是算力最大的刚性支出。算力与电力的深度协同,不仅关乎词元经济当下的发展速度,更关乎这一新形态可持续发展能力。

从跨区域调度看,算力需求与电力资源区域分布存在空间错配问题。东部地区算力需求全国占比相对较高,但电力资源紧张;西部地区电力资源富集,但算力需求全国占比相对较低。而电网调度与算力调度实时交互机制尚不完善,跨区域绿电交易通道容量有限,跨区域算电系统协同调节效率仍然不高。

从匹配效率看,绿电供给间歇性特征与算力中心连续用电需求之间存在内在矛盾。风电、光伏等新能源发电具有明显的间歇性和波动性。而算力中心的运行恰恰需要连续、稳定的电力供应,断电或电压波动可能导致训练任务中断、数据丢失甚至硬件损坏。储能技术虽然可以在一定程度上平抑波动,但大规模储能的成本仍然较高。

从技术支撑看,算电深度融合仍存在多项技术瓶颈。当前,超万卡规模智算集群在面临负载动态迁移时,存在效率低、时延高的问题,而电力系统要求快速响应。同时,绿电溯源标准化、智能化水平偏低,难以支撑绿色算力认证与交易。

破解算电协同难题,需要从加强规划、完善机制、提升技术水平等方面着力。在规划层面,加强算力布局与电力规划统筹衔接,推动算力设施向西部绿电富集区集群布局,提高可再生能源利用水平,缓解算电分离状况。在机制层面,加快跨区域电力市场建设,完善绿电交易机制。在技术层面,加快突破算电联合调度等关键技术瓶颈,完善绿电溯源、消费核算等配套技术。

五、词元经济健康发展需跨越安全防护关

词元生产、调用等过程涉及面广,安全风险点多,高度依赖全链条的安全可控。一旦安全底线失守,不仅可能导致用户隐私泄露、企业商业损失,更可能引发虚假信息蔓延、社会认知混乱乃至威胁意识形态安全。

在隐私泄露风险方面,在模型输入、处理、输出端均存在隐私泄露可能。在输入端,用户提示词可能包含涉及隐私的敏感信息;在处理端,大模型可能“记忆”敏感信息,形成“记忆泄露”潜在风险;在输出端,大模型可能在“无意”中泄露敏感信息。模型被攻击、数据被捕获也可能造成隐私泄露。

在数字鸿沟方面,词元接入差距可能成为制约智能普惠的结构性因素。只有那些有能力负担相应词元消耗量的机构和个体,才有机会使用具备更强推理能力、能够完成更复杂任务的模型,而无能力负担的其他用户只能使用仅能完成简单任务的模型。这种词元接入上的差距有可能演变为最终的收益鸿沟。

从认知错位风险看,将词元生产、调用等嵌入知识、文化传播过程,从而将可能的风险延伸至价值观等认知层面。大模型并非价值中立的语义机器,其训练语料的构成、知识关联的选择、生成内容的倾向,都影响着使用者的认知框架。在这个意义上,词元经济能够影响知识建构、文化表达、价值阐释。如果模型预设的文化观念和价值立场与主流认知存在偏差,用户可能在潜移默化中受到影响。

构筑词元经济的安全防线,需要从加强隐私防护、降低使用门槛、维护认知安全等方面推进。在加强隐私防护方面,建立覆盖数据采集、模型训练、模型推理、内容输出等全链条的防护体系,加强数据加密、隐私计算等技术手段的应用。在降低使用门槛方面,通过公共算力补贴、词元套餐普惠化、农村地区服务下沉等方式,让词元经济的发展成果惠及更广泛的社会群体。在维护认知安全方面,加快建设高质量中文语料库体系,把中华优秀传统文化、社会主义核心价值观等转化为规范完整的高质量语义资源,增强我国词元服务体系的文化自主性与价值判断力。

(毛科俊系习近平经济思想研究中心研究三部主任、研究员;梁永坚系习近平经济思想研究中心助理研究员)


总 监 制丨王列军车海刚

监 制丨陈 波 王 彧 杨玉洋

主 编丨毛晶慧 编 辑丨陈姝含



免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。