当前位置: 首页 » 资讯 » 科技头条 » 正文

巨头“抛弃”Scale AI背后:AI的竞争核心已转向“数据秩序”

IP属地 中国·北京 证券时报 时间:2025-10-22 16:12:08

证券时报记者 陈霞昌

2025年的秋天,全球人工智能行业重新进入躁动期。9月,美国AI数据标注初创公司Micro1宣布完成3500万美元A轮融资,投后估值达5亿美元。这家成立仅三年的公司,以AI驱动的招聘与数据交付体系,成为OpenAI、Google和Meta等巨头新的合作方。在Meta以140亿美元投资Scale AI并高薪聘请其创始人汪滔(Alexandr Wang)之后,OpenAI与Google因数据安全担忧中止了与Scale AI的合同。失去了“官方标注厂”的巨头们迫切需要新的数据供应者,而Micro1正是在这个断裂中找到了加速通道。

一场看似技术性的更迭,实则揭开了AI产业最隐蔽的一层真相——在算法与算力之外,数据的秩序才是决定智能走向的力量。长期研究AI基础设施投资的前海信诺合伙人徐绍煌对此并不意外。在他看来,这场突如其来的市场重排并非偶然,而是AI生态演化的必然结果。“我们在算力和算法上跑得太快,以至于忘了问一句——AI到底吃进去的是什么。”他说。

在深圳的办公室里,他回忆自己第一次接触数据标注行业的感受:那是一种混合着工程与哲学的复杂体验。标注听起来简单——让机器“看懂”世界、理解人类语言。但当规模扩张到亿级样本,事情就变得截然不同。每一个语义差异、每一次文化偏误、每一条合规条款,都可能成为智能失真的起点。

“智能的起点不是算法,而是秩序。”徐绍煌轻声说道。在他看来,AI的真正挑战从来不在模型精度,而在输入数据的清洁度。算力是水泥,算法是图纸,而数据就是砖块——看似普通,却决定整栋大厦的稳固程度。

数据标注行业因此被形容为AI时代的“卖铲人”。它不直接创造智能,却支撑了智能的基础结构。英伟达售卖算力,OpenAI售卖算法,而数据公司售卖“干净的数据”。这是一个劳动力密集又认知密集的产业。不同于制造业追求良率,SaaS追求续费率,AI数据的核心指标是“可被审计的秩序”——即每一条数据为何被如此标注,都有清晰、可追溯的逻辑与合规链条。

徐绍煌称之为“秩序优势”——一种可以复用、可追溯、能长期累积的能力。“规模优势是线性的,秩序优势是复利的。”他解释道。在过去几年里,他见证了AI数据行业从“人力外包”到“数据治理”的迁移。早期的标注公司像赛博富士康,依靠大量人工反复标注图像和文本;如今,领先企业正尝试将机器学习反哺标注体系,通过主动学习、自动质检、对抗样本回流等方式,让人机协同达到动态平衡。“这不是在降低成本,而是在重建秩序,”他说,“真正的效率不是更快,而是更准。”

相比其他行业,AI数据投资的复杂性更高。它不是单维度的商业博弈,而是一场多维的系统挑战。芯片看制程,软件看增长,消费品看品牌,而AI数据公司必须同时满足质量、自动化和合规三项约束。任何一环断裂,都可能造成系统性风险。徐绍煌用一句话概括这门生意的难度——“三条底线同时成立”。

第一条是质量底线。数据集必须在极端语境下保持一致性,否则模型训练会在高维空间内崩塌。

第二条是效率底线。人机协同比例要平衡,自动化比例太低意味着成本无法下降,太高又会引发漂移与偏差。

第三条是合规底线。从数据权属到跨境流转,每一次操作都需留痕、可审计、可溯源。

这三条线共同定义了AI数据行业的门槛,也让这个行业成为资本难以轻易跨越的领域。

在投资逻辑上,徐绍煌更看重结构而非速度。他将AI数据公司划分为一个“三轴系统”:质量(Quality)、自动化(Automation)、合规(Compliance)。“这三者是彼此拉扯的。质量要求人类判断,自动化追求机器效率,而合规则在两者之间设置边界。一个好的企业能让三者形成张力平衡。”他相信,未来能在这三条轴线上形成闭环的公司,将成为AI世界的“底层基础设施”——就像能源之于工业,网络之于互联网。

2024年起,中国的AI基础设施企业开始在这一领域加速。徐绍煌投资并深度参与的曼孚科技等公司在算法研发之外,进入数据治理、评测与合规体系建设,逐步从单一的技术供应商转型为全流程的数据基础设施提供方。徐绍煌认为,中国企业的优势在于系统工程能力和产业化深度。“美国在训练模型,中国在建设秩序。”他说。这种差异,意味着中国公司在AI时代拥有另一种类型的创新空间——不是算法创新,而是治理创新。

他始终强调,AI数据行业不是一个可以追风口的领域,而是一门需要理解深度的事业。“真正的长期主义,不是时间的忍耐,而是结构的理解。”他说。资本在算法浪潮中往往短视,但AI的落地周期更像基础设施建设:周期长、投入大、回报慢,却最具稳定性。

近两年,合成数据的崛起再次引发讨论:如果AI能为AI造数据,是否意味着人工标注的时代即将结束?徐绍煌对此并不认同。他认为合成数据是重要补充,但不是终局。“机器可以造数据,但语义边界仍然需要人类定义。只有在人类语义监督下的合成数据,才具备可信价值。”在他看来,这正说明AI产业的重心正在从“创造智能”转向“治理智能”。“未来的竞争,不在模型性能,而在秩序质量。”

在采访的最后,他谈起AI的未来。“我们最终追求的,不是让机器更像人,而是让机器在一个干净、有序的世界里思考。”他说这句话时语气缓慢而笃定,仿佛在为整个产业写下一句注脚。

或许,在算法狂飙、资本追逐的时代,数据标注听起来并不浪漫。它没有炫目的技术叙事,也缺乏短期的资本故事。但当人类逐渐把思考外包给机器,谁来决定机器理解世界的方式?这门“为智能清洗世界”的生意,也许正是AI时代最稳固、最长久的命题。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。