当前位置: 首页 » 资讯 » 科技头条 » 正文

苏炜杰加入OpenAI:Scaling Law撞墙后为什么需要数学家出手?

IP属地 中国·北京 编辑:吴婷 雷峰网 时间:2026-06-11 14:18:02

大模型眼下的难题,却是苏炜杰的「舒适区」。

作者丨胡清文

编辑丨徐晓飞

大模型正在走进一片没有地图的深水区。

Scaling Law开始撞墙、高质量数据接近枯竭、AI解释性问题依然没有解决,行业逐渐进入后Scaling时代。

越来越多人开始意识到,那些最关键的瓶颈,单靠工程经验已经无法突破了。

问题摆在眼前,能回答它的人开始登场。

5月30日,宾夕法尼亚大学沃顿商学院统计学教授苏炜杰宣布加入OpenAI,参与模型训练相关工作。

他是2026 COPSS会长奖得主,统计学界40岁以下最高荣誉14年来第一位华人获得者,刚刚完成从副教授到正教授的晋升。

站在学术生涯的顶峰时刻,他却转身走进行业最深处的风暴眼。

时机不像是巧合。

01

契机:去年十二月的一通视频

苏炜杰告诉雷峰网,促成他这次加入OpenAI的直接契机,是去年12月的一通Zoom视频。

“OpenAI 的研究员 Sebastien Bubeck 联系了我,问我有没有兴趣加入OpenAI。很多年前他还在学术界时,就关注过我在优化问题方面的工作。”

一句话,藏着两条信息。

一是OpenAI对理论研究的关注并非新近才有。二是苏炜杰在优化领域的工作,在AI圈早已广受关注。

苏炜杰的学术履历横跨高维统计、机器学习理论、因果推断、差分隐私与生成式AI。

2007年,他考入北大数院,以年级第一毕业,随后赴斯坦福统计系,师从统计学传奇人物Emmanuel Candès。

这般扎实的学术背景,塑造了他看待问题的方式:寻找复杂系统里的结构,而不只是得出一个可运行的结果。

国内数学圈,常把苏炜杰所在的北大数院2007级称为“黄金二代”。

这一级出了苏炜杰、邓煜、王虹、唐云清等后来横跨数学、统计、AI前沿的优秀学者。

对此,苏炜杰有他自己的解读,既不夸大,也不回避。

“回想起来,我们这一级确实很强,在北大时已经展现出日后的潜力,只是当时没有意识到。”

他认为,其实北大数院前后几个年级都非常出色,很大原因来自北大数学培养模式的成功,以及一群真正对数学感兴趣的同学聚在一起产生的群体激励效应。

对我而言,我的底色是数学。数学训练给人的不是某个固定工具,而是在复杂问题里寻找结构的能力。”

但他也强调,自己并非一开始就奔着应用方向去的。

“因为各种机缘巧合,我本科时在微软亚洲研究院的实习,之后到斯坦福读博,比较早的接触到了机器学习和人工智能,这些经历奠定了我日后做应用数学研究的学术品味。”

提及当下去向选择,他的回答十分坦诚。

“到了我这个职业阶段,身边很多学术界的朋友已经在创业。”

但他选择投身OpenAI的原因,还是让人好奇。

苏炜杰解释道,很多自己长期关心的基础问题,今天正在大模型最前沿以非常真实、非常大规模的方式出现

“在学校,我们组提出过不少关于AI算法的想法,但受限于算力和Infra,很难做大规模的实验验证。而在Frontier Lab,就没有这些问题。”

这番回答,传递出了一个清晰的思考。

他去OpenAI,不是为了离开学术,而是为了把学术问题研究做得更彻底,更多观点,欢迎添加作者微信 IHAVEAPLANB- 沟通交流。

02

OpenAI为什么需要数学家?

谈及入职OpenAI后负责的具体内容,苏炜杰表示暂时不便透露。

但他坚信,未来理论功底不错的人,开发AI模型的优势会被放大。

苏炜杰的判断,主要基于两个原因:

第一,Frontier Lab的Infra已经比较成熟,Coding Agent在研发中已经普及使用。

“这并不是说工程能力不重要,而是工程能力的重心发生了变化,idea的重要性会提升。稀缺的是提出好假设、设计好实验、定义好eval、及时的反馈、并判断能不能scale的能力。”

第二,大模型的性能提升已经进入深水区。

“普通对话能力对各家来说都已经饱和,拉开差距的突破点,在于高难度任务在复杂环境下能力的稳健性。这个时候,对数据的深刻理解会变得尤为重要,特别是对数据分布、泛化能力、和评估不确定性的洞察。”

他表示,也正是由于上述原因,现在有越来越多的统计学家、应用数学家、和物理学家活跃在 AI 领域。

苏炜杰所描述的不是一个人的职业判断,而是整个行业正在发生的能力重心迁移,不同见解,欢迎添加作者微信 IHAVEAPLANB- 沟通交流。

过去三年,AI行业最核心的竞争,在于谁拥有更多GPU、更大的数据中心、更强的工程团队。

但是在今天,新的问题正在浮现。

对齐税怎么算?

合成数据的崩溃风险如何量化?

训练过程的收敛性能不能被严格证明?

......

这些问题,已经逐渐超出传统工程优化能够解释的范围,越来越像数学问题。

03

他关心的问题,正是大模型头疼的问题

在采访苏炜杰之前,雷峰网梳理了他过去几年的论文方向,发现一个有趣的现象:

他的研究重点,与当下大模型在训练和应用中遇到的某些瓶颈高度相关。

这并非巧合,两条路径都指向了同一个核心问题,不确定性。

统计学研究的本质就是处理不确定性,而今天的大模型,恰恰建立在诸多不确定性之上。

以下是他对几个核心问题的判断:

Scaling Law真的存在绝对上限吗?

硅谷过去几年笃信Scaling Law,认为算力、数据、参数只要指数级堆上去,AGI就会自然涌现。

但当下,回报率在下降的信号越来越明显,Scaling Law真的要撞墙了吗?

这个问题苏炜杰两年前就思考过,他认为不会有一个完备答案。

“算力和参数量相对是良定义的,但数据不是一个良定义的单一变量。两份同样大小的数据,信息密度、任务结构、长尾覆盖、可验证性可能完全不同,Scaling Law可能在一个数据上成立,而另一个不成立。

他还指向了一个被很多人忽略的维度。

“因为AI引擎的普及,这个世界产生数据的速度比任何时期都快。真正的问题是,这些新生成数据的智力密度,和早期更自然、更原生的数据相比,能不能维持模型能力继续scale上去,这个问题需要实证研究。”

对齐税在数学上有解法吗?

越对齐越变笨,是眼下AI行业最令人头疼的问题之一。

为了让模型符合人类的安全和道德规范,RLHF(人类反馈强化学习)会破坏模型的微观数据分布,导致推理和生成能力下降。

这就好比你让一个天生自由奔跑的机器狗学会走直线,它的速度和敏捷性不可避免地会受到限制,这就是所谓的对齐税。

那么这个问题真的无解吗?

“‘对齐税’直觉上很容易理解,没有两全其美的事,不同指标之间确实存在一定此消彼长。但越对齐越变笨一定程度上是可以缓解的。随着模型能力增强,对齐对能力下降的影响是可以降低的。”苏炜杰表示。

至于有没有可能在数学层面推导出一个完美边界,他打了一个物理学的比方:

“大模型由于规模巨大、结构复杂,其实有点像一个巨大的物理系统。理论比较容易成功指导的,往往是微观和宏观两个尺度:微观上,像Muon优化器这类方向;宏观上,比如Scaling Law。”

苏炜杰认为,真正难的是介于二者之间的中间尺度,那里有数据、模型、任务和人类反馈的复杂相互作用。就像物理在高能粒子物理和宇宙学上很成功,但对介观尺度的生物系统解释起来难度很大。

“有志于为 AI 建立有实际指导价值理论框架的同学,可以参考这个物理类比。”

合成数据这条路走得通吗?

当人类高质量数据被大模型吃光,行业开始大规模用AI生成的合成数据训练下一代模型。

随之而来的警告是,这也许会导致模型崩溃。

对这个问题,苏炜杰的判断干脆利落。

他认为,模型崩溃主要来自直接、不加任何处理地反复使用合成数据。从理论上讲,这几乎是必然的。因为反复直接用合成数据,AI模型就成了一个没有跟真实世界互动的封闭系统。

“这样的话数据分布就会越来越窄,借用一个不完全严格的说法,这有点像熵增,封闭系统最终会走向退化。”

但苏炜杰认为,这并不意味着合成数据这条路走不通,更多一手采访资料,欢迎添加作者微信 IHAVEAPLANB- 沟通交流。

“关键不在于数据是不是AI生成的,而在于生成和筛选数据时有没有加入外部信息。现在已经有很多工作在研究,怎样在合成数据时小心地加入人类先验和环境反馈,这样合成数据就成了一个带反馈的开放系统。”

思维链真的能让模型更理性吗?

思维链带来的模型推理跃升,在很多人眼里仍然是个谜。

苏炜杰直言,他曾经甚至想过思维链的反面:

能不能减少token,要求模型直接输出答案,通过提高训练难度来提升模型推理能力。现在看,这个想法可能是错的。

“因为很多复杂问题里,正确答案未必以一个很清晰的形式存在,需要通过大量思考找到相对合理的答案;即使正确答案存在,也往往需要经过很多看起来不正确的路径,最后才能找到。”

对此,他给出了一个偏哲学的解读:

“这是世界不完美、绝对理性不存在的一个例证。”

04

AI正在拆掉“象牙塔”的高墙

外界常有一种刻板印象,认为学术界和业界之间存在着一堵高墙。

尤其是在AI这样节奏极快的领域里,两者之间的文化摩擦似乎必然存在。

苏炜杰指出,其实美国高校“象牙塔”的围墙,并没有大家想象的那么高

“学校经费大多来自政府和业界的资助,因此尽管学校层面赋予教授充分的自由,许多教授仍会自发地将科研与业界发展、尤其是AI紧密结合。即便是纯数学领域,也有不少学者开始主动拥抱AI,这一点与欧洲学术界形成了鲜明对比。”

从宾大沃顿到OpenAI,在他看来,虽然工作模式有所变化,但所追求的东西并没有根本性不同。

“就目前而言,AI的智能呈现出博远超人类,精不及专家的特点。涉猎之广远超个人所能,但在专业纵深上尚不及顶尖的知识工作者。而学术界恰恰相反,精益求精有余,广博略显不足,二者构成了极好的互补。”

苏炜杰预计,未来 AI 的持续进化,尤其是专业领域能力的进一步提升,将离不开与学术界的深度协作。

这种互补,或许也是理解他这次选择的另一个角度。

“象牙塔”并没有倒,但它和外部世界之间的通道,正在变得越来越宽。

当一位统计学家决定走进风暴眼,他看到的,或许正是那些工程师还没来得及定义的问题。

:文中所载苏炜杰观点仅代表个人立场,不代表 OpenAI 官方立场。

标签: 数据 苏炜杰 模型 问题 数学 能力 学术界 人类 学术 统计学 理论 教授 任务 产生 象牙塔 工程 速度 机器 领域 同学 物理 代表 结构 尺度 系统 不确定性 华人 业界 数学家 沃顿 微观

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新