新智元报道
编辑:KingHZ
不要只盯着明星AI研究员!为了打造ASI,Meta、贝索斯等狂砸百亿,招聘专家当AI的「老师」。在此背景下,数据标注员的角色逐渐从基础任务转向更高技能的领域,门槛水涨船高。
最近,Meta成立了「超级智能」AI实验室,四处砸钱挖人。
网上流传着一份44人「超级智能」成员名单,
这收入水平可能性非常大。据报道,为了从OpenAI挖走他们的首席研究官Mark Chen,扎克伯格提供了高达10亿美元的薪酬提议。
值得关注的是,除了Yann LeCun等部分Meta的「AI元老」,名单里大部分都是这个月新入职的员工;而且名单里有一半本科毕业于国内的大学。
而这些「中国大学生」中,清华校友Yuanzhi Li又是比较独特的一位:之前,他是卡内基梅隆大学的助理教授,没有业界工作经验。
这份名单里另一位教授是图灵奖得主、现纽约大学教授Yann LeCun
普通人只能像网友Meet一般感叹:平庸与卓越差距如此之大!
不过,即便是清华的毕业生、即便也是美国的教授,也不是人人都有机会参加Meta的这波「AGI选秀」。
刚刚,清华校友、杜克大学教授陈怡然发微博如此表示。
小扎这是用实际行动证明:「知识就是财富」!
和Yann LeCun同榜的前教授
Yuanzhi Li入职Meta已有4个月,任研究科学家;入职Meta之前,他是卡内基梅隆大学(CMU)的助理教授。
他没有产业界的工作经历,主要研究深度学习理论。
目前,他的谷歌学术被引次数超过了4万,特别是2023年后,被引数开始爆发。
他是LLM微调方法低秩自适应LoRA的合著者。
论文链接:https://arxiv.org/pdf/2106.09685
他还参与了微软语言模型Phi系列的研发,包括Phi-2、Phi-3、Phi-4等模型。
他还是「语言模型物理学」(Physics of Language Models)研究项目的主要参与者。
2014年,他获得了清华大学计算机科学学士学位;2018年,他获得了普林斯顿大学计算机科学博士学位。
不过,除了AI顶尖的研究人才,Meta在数据上也下了血本。
据报道,国际上顶级AI集团正在用高薪的行业专家替代非洲和亚洲低成本的「数据标注员」。
特别是,Meta和贝索斯狂砸百亿,招聘物理学家、生物学家当「AI的老师」,打造超越人类的「超级大脑」。
数据标注行业,悄悄来了一次产业升级。没学历,数据标注都干不了?
推理模型大爆发
AI数据成关键
Scale AI、Turing和Toloka等AI数据服务商,正在聘请生物学和金融等领域专家,帮助他们创建更复杂的训练数据。
随着OpenAI o3和谷歌Gemini 2.5之类的推理AI模型的崛起,企业加速淘汰肯尼亚、菲律宾等国每小时薪酬不足2美元的低成本标注员。这些工人此前主要从事耗时的人工标注工作,为AI模型训练提供海量数据集。
荷兰的AI数据商Toloka的首席执行官兼联合创始人Olga Megorskaya说:
「AI行业曾长期专注于模型和计算,而数据一直被忽视。终于,(AI行业)开始意识到数据在训练中的重要性。」
这一转变导致投资者对数据标注初创公司兴趣大增。
例如,在6月,Meta向美国的Scale AI投资了150亿美元,使其估值翻倍至290亿美元,以追赶竞争对手。
同样地,位于加州的Turing AI在3月以22亿美元的估值筹集了1.11亿美元资金。
贝索斯的个人公司Bezos Expeditions则在5月领投了Toloka的7200万美元融资轮次。
产业升级,专家加薪20%
由于AI模型需要海量数据提升性能,这些工人需在数秒内处理单个任务,日均完成数百项任务以构建庞大数据库。
然而,随着许多任务已自动化,这些需求已经大幅下降。这些过去从事AI最底层的工人,某种意义上被AI取代了。
肯尼亚数据标注员协会(Data Labelers Association)主席Joan Kinyua表示,工人们现在被要求处理依赖本地语言技能和知识的任务。
该协会还发现,部分任务要求标注员对AI生成的内容进行最终质量控制检查。
随着OpenAI、Anthropic和谷歌等AI巨头努力开发ASI,而这些模型或将超越人类智能,行业正在加大对数据集质量的关注,雇佣专家来解决复杂问题。
Turing AI的联合创始人兼首席执行官Jonathan Siddharth表示:「现在需要的是人类使用模型完成脑力工作的真实数据,以及模型出错时的反馈。」
为了确保模型在从编程到物理学、金融等多个领域的表现,资金雄厚的AI公司现在愿意支付费用,获取更复杂的数据集,从而聘请全球的专家。
Siddharth透露,Turing为跨行业专家提供比原职高20%-30%的薪酬。尽管数据预算仅占AI公司算力支出的10%-15%,但这仍是「一笔巨款」。
Toloka的Olga Megorskaya表示,诸如「思维链」之类的新功能,要让人类专家演示如何拆解问题,之后才开发出来的。
经验丰富的软件工程师可能还需根据自身领域设计任务,并通过编写代码、调试程序及检查安全漏洞来解决问题。
与此同时,验证物理学理论需要多方协作:物理学家负责阐述如何构建模拟器来检验理论真伪,软件工程师编写模拟器代码,数据科学家则分析模拟结果。
Turing AI的Siddharth指出:「由此产生的模型不仅会超越物理学家,更将超越物理学、计算机科学与数据科学三大领域顶尖人才的叠加能力。」
参考资料:
https://archive.ph/Slzih