11月14日,大模型 大未来——2025年大模型应用场景交流全国行·深圳站暨大模型数据要素建设行活动在深圳举办。
本次活动由红星传媒、深圳河套学院、中国移动数智化部联合主办,中国人工智能产业发展联盟(AIIA)数据委员会、深圳市人工智能协会以及深圳市翻译协会协办。
来自高校、行业协会、行业机构及中国移动、顺丰科技、金正优智科技、得理科技等10余家行业企业参会,围绕“模型应用”、“高质量数据集建设”、“场景实践”等内容开展了深度交流。
中国信通院人工智能研究所李荪在主题演讲中指出,人工智能正从“AI赋能”走向“AI原生"。"当AI原生成为核心逻辑,数据已从'辅助输入'升级为核心生产要素,即AI原生数据。”
![]()
政策端来看,国家数据局、工信部等持续完善顶层设计,《“数据要素x”三年行动计划》《国家人工智能产业综合标准化体系建设指南(2024版)》等文件密集出台;国务院国资委发布首批30项央企高质量数据集;北京、上海、山东、武汉、南京、杭州、呼和浩特、苏州等11地在2025年2—4月集中发布奖补政策,激励数据集供给端建设。截至目前,沈阳、保定等7个国家级数据标注基地已建成数据集524个,规模超29PB,服务大模型163个,数据标注产业迈入快速扩容期。
活动现场发布的一组数据显示,全球大模型训练数据量自2010年后呈指数级增长,2025年已逼近10¹⁵ Token量级;但数据密度在2024年出现“见顶回落”——以Qwen系列为例,Qwen 2.5-32B密度为554,Qwen 3-Max仅36,下降近15倍。“规模竞赛”进入“质量竞赛”阶段,高质量数据集成为人工智能应用升级的核心要素。
AI原生强调从系统设计、代码实现到应用场景均以AI技术为出发点和驱动力,实现“脱胎换骨”的范式重构;数据层、技术层、应用层同步跃迁,形成动态关联、多模态融合、实时闭环的“知识网络”,为大模型持续演进提供“燃料”。
面向AI原生的数据工程体系成为破解瓶颈的关键。中国信通院提出“静态管理→动态学习、数据治理→数据智能治理、一次性清洗→持续评估优化”三大转变,构建贯穿采集、治理、反馈与评估的全流程原生数据工程,让数据与模型共同演化、生长。
目前,其“人工智能数据集质量评估体系(ADAQ)”已开发60个质量评估算子,覆盖完整性、规范性、准确性、及时性、一致性、稠密性、多样性、均衡性、相关性、原创性、可溯性、可访问性等12个一级指标、36个二级指标,自动化评测率达75%,为高质量数据集建设提供可量化、可落地的“标尺”。
刘谧 红星新闻记者 李伟铭





京公网安备 11011402013531号