当前位置: 首页 » 资讯 » 科技头条 » 正文

字节团队找到了一把"智能配方秤",让AI训练数据的选择不再靠猜

IP属地 中国·北京 科技行者 时间:2026-05-18 22:16:47


这项由字节跳动与加州大学圣克鲁兹分校联合开展的研究,以预印本形式发布于2026年5月4日,论文编号为arXiv:2605.02364,感兴趣的读者可通过该编号在arXiv平台查阅完整原文。

训练一个大型语言模型,本质上和开一家高档餐厅没什么两样——食材的质量与搭配比例,直接决定了最终端上桌的菜肴水准。然而现实情况是,高质量的"食材"(即优质训练数据)永远供不应求。每一家试图训练大模型的团队,都面临着同一个让人头疼的问题:当高质量数据不够用时,到底该怎么办?

字节跳动的研究团队针对这个问题,提出了一套叫做"InfoLaw"(信息缩放定律)的理论框架。它的核心思想可以用一个厨房里的比喻来理解:与其凭直觉往锅里加食材,不如先建立一个精确的"配方计算公式",告诉你在不同火力(计算预算)、不同锅的大小(模型规模)、不同食材新鲜度(数据质量)的情况下,应该如何搭配食材、应该重复使用几次剩菜,才能烧出最好的一锅饭。

一、为什么"加倍使用好食材"这条路走不通

要理解这项研究解决了什么问题,先得搞清楚训练大型语言模型时的一个现实困境。

在人工智能领域,训练数据的质量对模型最终表现有着决定性影响。高质量数据——比如逻辑清晰、内容丰富的文章——能让模型学到更多有用的知识。因此,一个很自然的想法是:在训练时尽量多用高质量数据,少用低质量数据。

然而问题在于,优质数据本身就是稀缺资源。就好比一家餐厅想多用松露和鱼子酱,但全球松露的产量就那么多,无论多有钱都买不到无限量的松露。对于AI训练来说,高质量数据也是如此——一旦用完了,就只能反复使用同一批数据。这种"反复使用"在AI领域叫做"重复训练"(repetition),或者用更形象的比喻来说,就是让厨师反复炒同一盘剩菜。

研究团队发现,重复使用高质量数据,就像反复加热同一锅菜——第一次加热,味道还不错;第二次加热,味道开始变淡;等到第十六次加热,这锅菜基本上已经毫无营养可言,甚至开始变质。实验数据非常清晰地证实了这一点:当高质量数据被重复使用超过一定次数后,模型的性能不但不会继续提升,反而会下滑。

更让研究人员头疼的是,目前AI行业普遍流行一种叫做"过度训练"(overtraining)的策略——这是指故意用比"刚好合适"更多的数据来训练一个相对较小的模型,以便这个小模型在实际使用时更省钱。这就像是为了节省燃气费,用小火慢慢把一锅菜熬很久。这种策略本身是合理的,但它进一步加剧了数据重复的问题,让高质量数据被迫反复使用的次数更多。

面对这个困境,业界通常的做法是做大量小规模实验,然后用"缩放定律"(scaling law)这个工具来预测:在大规模训练时,某个数据配方大概会达到什么样的效果。缩放定律本质上是一个数学公式,它试图描述模型性能与计算资源之间的关系,就像一个食谱告诉你"用多少火力烤多久能出什么效果"。

然而,字节跳动的研究团队发现,传统的缩放定律在存在数据重复的情况下会严重失灵。如果用传统缩放定律来预测"重复使用高质量数据"时大模型的表现,预测结果会比实际结果乐观得多——就像一个食谱告诉你"再烤20分钟会更完美",但实际上蛋糕早就烤焦了。这种预测偏差在数据规模越大、模型越大时越明显,正是这个失灵之处,催生了InfoLaw的诞生。

二、给数据建立一套"信息量账本"

既然传统的工具失灵了,研究团队就从头开始,重新思考训练过程的本质。

他们的核心洞察是:与其用"消耗了多少计算量"来预测模型表现,不如直接追踪"模型真正从数据中学到了多少信息"。这就是InfoLaw的基本哲学——把训练过程理解为一个"信息积累"的过程,而不仅仅是一个消耗算力的过程。

用厨房比喻来说:传统方法只关心"你在炉子上花了多少时间和燃气",而InfoLaw则关心"这锅菜实际上吸收了多少营养"。同样的时间和燃气,用来炖新鲜食材和反复加热剩菜,营养摄入量是完全不同的。

为了量化"信息量",研究团队建立了一个精巧的数学模型。这个模型的工作原理是这样的:首先,研究团队把所有训练数据按照质量评分从高到低排序,划分成六个"质量桶"(quality bucket)。想象成一个食材库,从顶层的特级食材(质量评分前5%)到底层的普通食材(质量评分后20%),共六个档次。

然后,研究团队对每一个质量档次的数据,都建立了一个"信息获取公式"。这个公式的核心思想来自一个生活中很常见的现象:你第一次看一部电影,会学到很多东西;第二次看,还能注意到一些之前没发现的细节;但如果你看了十次、二十次,每次看完后几乎不会再有新收获。也就是说,重复学习同一内容的边际收益是递减的,而且是以指数级速度衰减的。

研究团队把这个"指数递减"的规律用数学公式精确描述了出来。在他们的模型中,每次重复接触某份数据,模型获得的新信息量都会乘以一个小于1的系数,这个系数与模型的大小(更准确地说,是模型每处理一个词需要的计算量)密切相关。模型越大,它的"学习能力"越强,衰减系数越大,意味着它能从同一份数据的重复学习中多榨取一点信息,但同样遵循边际递减规律。

此外,研究团队还发现了一个微妙但重要的细节:整体训练数据量的大小本身也会影响信息积累的速率。具体来说,信息获取的速率与训练数据总量的对数成正比。为什么是对数而不是线性关系?因为当训练数据量从十亿增加到百亿时,带来的额外学习效益,远没有从一亿增加到十亿时那么显著——就像同一个厨师,从只有十种食材到拥有百种食材时,厨艺会突飞猛进,但从拥有一千种食材到一万种食材时,进步就会缓慢得多。研究团队用对数函数来捕捉这个规律,并通过大量实验验证了这个选择的正确性——他们也尝试过常数归一化和幂律归一化,但这两种方式都无法正确描述数据,只有对数归一化才能把不同训练规模下的结果统一到一条曲线上。

把所有质量桶的信息量累加起来,就得到了一个综合的"信息量"(InfoLaw中称之为info)。这个数字综合考虑了:数据质量(通过"质量密度"函数体现,高质量数据被赋予更高的密度值)、数据的重复次数(通过指数衰减函数体现)、模型大小(通过学习能力参数λ体现),以及总训练量(通过对数归一化体现)。有了这个统一的信息量指标,接下来的事情就变得优雅起来——研究团队发现,把所有不同数据配方、不同模型大小、不同训练规模的实验结果,统一用"信息量"来表示横轴,所有的数据点就会神奇地落在同一条曲线上,而不是像以前那样散乱分布。这条统一曲线遵循简单的幂律关系:损失值 = 3.7373 × 信息量的-0.0441次方。

三、数据配方实验室:LayerMix与27场烹饪大赛

理论框架搭好了,但要让它真正管用,还需要用大量实验来确定模型里那些未知参数的值。

研究团队设计了一套叫做"LayerMix"的数据采样方案。这套方案本质上就是一个可调节的"配方系统":你可以调整每个质量桶的采样比例,从而得到从"全高质量"到"全低质量"的各种不同配方。研究团队预设了五种标准配方,从HQ(高质量)到LQ(低质量),其中HQ配方中高质量数据(前5%)占比高达80%,而LQ配方中这个比例只有24%。

这些不同配方的差异非常现实:HQ配方意味着高质量食材被大量反复使用,就像餐厅里同一道招牌菜被反复炒了十六七次;而LQ配方则意味着低质量食材被大量使用,好比厨房里堆满了大路货但每种只用一两次,质量参差不齐,新鲜度尚好。

为了给InfoLaw提供训练数据,研究团队从Common Crawl(一个覆盖数万亿词的互联网文本数据库)中精选出3.7万亿词的英文语料,并进行了严格的去重处理,确保原始数据集本身不含重复内容。随后,他们用两个主流的质量分类器对每篇文章打分,取平均值后按分数高低排成队,分成六个质量桶。

在这个数据集基础上,研究团队训练了9种不同大小的模型,参数量从2.52亿到12亿不等。每种大小的模型分别用HQ、MQ(中等质量)、LQ三种配方训练,因此一共得到了27组实验结果。所有实验都在"过度训练"状态下进行,具体设定为3.6倍的过度训练比例——也就是说,训练的数据量是"刚好合适"所需数据量的3.6倍。

用这27组实验结果,研究团队拟合出了InfoLaw中的两个关键函数:一是"质量密度函数"(fd),它描述了不同质量桶的数据对模型的相对价值。拟合结果非常符合直觉:数据质量越高,密度值越大,而且密度值随质量下降呈指数级减小。拟合出的参数θ为0.922,意味着相邻质量桶之间的密度差距大约是e的0.922次方倍,约为2.5倍。换句话说,顶级质量数据的"营养密度"是次级数据的2.5倍,是第三级的6.3倍,以此类推。

二是"学习能力函数"(λ(N)),它描述了模型大小与其从重复数据中汲取信息的能力之间的关系。研究团队发现,随着模型增大,这个学习能力参数也在增大,但增速越来越慢,最终会趋于平稳——这种形状用对数函数来描述最为准确。拟合结果给出a=0.140、b=0.018,也就是λ(N) = 0.140 × ln(N) + 0.018。

四、从小厨房到大型宴会厅:InfoLaw的外推能力

任何工具的价值,都要看它能不能在没见过的情况下依然给出准确预测。研究团队对InfoLaw的外推能力进行了三个维度的全面检验。

第一个维度是"新配方预测"。研究团队用HQ、MQ、LQ三种配方拟合出的InfoLaw,去预测其他没有参与拟合的配方(MLQ、MHQ,以及另外随机采样的25种配方)的模型表现。结果表明,这些新配方的实验数据点都非常整齐地落在了InfoLaw预测的曲线上——就像一个厨师,通过研究三款菜肴的食谱,就能准确预测其他几十款从未做过的菜肴的口味,这种泛化能力是传统缩放定律完全不具备的。传统方法遇到新配方,就必须重新跑实验来重新拟合曲线,而InfoLaw可以直接计算。

第二个维度是"更大模型预测"。拟合阶段使用的模型最大只有12亿参数,研究团队随后挑战了15亿、25亿,乃至77亿参数的模型(用425亿词的数据训练)。InfoLaw在这些从未见过的更大规模上依然保持了高度准确性:在所有未见配方和未见模型规模的预测中,平均绝对误差仅为0.15%,最大绝对误差为0.96%。作为对比,传统缩放定律在相同条件下的预测误差要大得多,而且会系统性地给出过于乐观的预测,就像一个总是预报晴天的天气预报员,在晴天准确率很高,但一遇到阴雨天就完全失灵。

第三个维度是"不同过度训练程度预测"。研究团队此前一直在3.6倍过度训练的条件下工作,现在他们想知道:InfoLaw能不能推广到25倍过度训练这种极端情况?实验结果显示,用3.6倍条件下拟合的质量密度函数和学习能力函数,直接计算25倍过度训练时的信息量,得到的预测结果依然与实际结果非常接近。两条不同过度训练程度的缩放曲线几乎平行——这意味着,过度训练程度主要只影响整条曲线的高低位置,而不影响曲线的形状。这个发现非常有价值,因为它意味着只需要在一种过度训练程度下做实验,就可以大致预测其他过度训练程度下的表现。

五、"信息量配方秤"的实际应用:帮你找到最优配方

InfoLaw不只是一个预测工具,它还能被用来主动搜索最优数据配方,而无需进行实际训练。

具体做法是:从配方空间中随机抽取十万种不同的LayerMix参数组合,对每一种组合都计算出对应的信息量,再通过幂律公式换算成预测的损失值,最后选取损失值最低的那种配方作为推荐配方。整个搜索过程不需要运行任何实际训练,就像一个厨师可以在脑子里先把所有食材比例的组合过一遍,挑出理论上最好吃的配比,然后才动手下厨。

研究团队用这种方法为一个25亿参数的模型(3.6倍过度训练)搜索出了最优配方,结果发现最优配方把50%的权重给了最高质量数据(前5%),49%给了次高质量数据(5%~20%),只有1%留给了第三档数据,剩余档次几乎不用。然后,研究团队真的训练了这个配方下的25亿模型,并与其他四种随机配方的模型比较——使用InfoLaw推荐配方的模型,在下游任务验证损失上确实最低,验证了这套搜索方法的有效性。

此外,研究团队还系统地列出了不同模型大小和训练量下的最优配方表,从中可以读出两条非常清晰的规律。当模型大小固定时,训练的数据量越大,最优配方就越倾向于使用更多样化(而非集中在最高质量)的数据;当训练量固定时,模型参数越少,最优配方就越倾向于集中使用最高质量数据。换句话说,小厨房做小菜,要用最好的食材精工细作;大酒楼做宴席,则需要广泛采购、兼顾多样。这个规律背后的直觉是:小模型的容量有限,每一个训练样本都显得珍贵,只能把有限的容量用在最有价值的数据上;而大模型有足够的容量来消化更广泛的知识,过分集中在同一批高质量数据上反而会造成严重的重复损失。

六、配方秤能不能在不同厨房里用?在RefinedWeb上的泛化检验

一个好工具,不应该只在特定条件下管用。研究团队最后在一个完全不同的数据集——RefinedWeb——上测试了InfoLaw的泛化能力。

RefinedWeb是由法国人工智能公司Falcon团队发布的另一个大规模高质量网络文本数据集,虽然同样来源于Common Crawl,但采用了完全不同的过滤和清洗策略。研究团队用同样的方法,在RefinedWeb上对InfoLaw进行了拟合和外推实验,结果发现:质量密度函数的拟合参数θ为0.93,与在自有数据集上拟合出的0.92几乎完全相同。这一发现颇耐人寻味——研究团队认为,尽管两个数据集的过滤方式不同,但由于底层数据都来自Common Crawl,数据的"信息密度分布"结构非常相似,所以质量密度函数具有很强的跨数据集泛化性。在未见配方(MLQ)的外推测试中,平均绝对误差仅为0.24%,最大绝对误差为0.36%,再次证明了这套方法的鲁棒性。

归根结底,这项研究做的事情就是给AI训练数据的搭配问题,建立了一套有理论支撑、可以计算、可以外推的"配方公式"。过去,研究者们在面对"用多少高质量数据、允许重复几次、配多少低质量数据"这类问题时,基本上只能靠经验和直觉,再辅以大量烧钱的小规模实验。现在,只要测量出数据的质量分布,知道模型的参数量和训练量,就可以事先算出不同配方对应的信息量,再通过一个简单的幂律公式预测出最终的模型表现。

研究中也坦诚地点出了若干局限:质量桶的划分方式基于经验判断,没有做系统性的消融实验来确定最优分桶数量和边界;过度训练程度影响曲线位置的理论解释尚不完整;模型的质量评估同样依赖于特定的质量评分器,更换评分器是否会影响InfoLaw的适用性还有待检验。

这些开放性问题本身也勾勒出了未来工作的方向——毕竟,任何一套好的"配方系统",都需要在更多厨房、更多场合下反复验证,才能真正成为行业公认的标准工具。

Q&A

Q1:InfoLaw为什么比传统缩放定律在数据重复情况下预测更准确?

A:传统缩放定律只用"消耗了多少计算量"来预测模型表现,完全忽略了数据被重复使用时边际收益递减的现象。InfoLaw引入了"信息量"这一新指标,通过指数衰减函数显式地建模重复训练带来的收益递减,并结合数据质量分布和模型大小进行综合计算。这让不同配方、不同规模的实验结果都能统一落在同一条预测曲线上,外推误差平均仅0.15%,而传统方法在数据重复条件下会系统性地给出过于乐观的预测。

Q2:LayerMix采样方案具体是怎么工作的?

A:LayerMix把所有训练数据按质量评分从高到低排成六个桶(前5%、5-20%、20-40%、40-60%、60-80%、80-100%),然后通过一组权重参数w控制每个桶在最终训练集中占多大比例。调整这组权重,就能得到从"全高质量数据"到"全低质量数据"之间的各种混合配方。当某个桶的目标采样量超过该桶实际可用数据量时,就会出现重复采样,桶内数据被反复使用。这套系统能精确控制每个质量档次数据的重复次数,是InfoLaw理论框架得以量化的实验基础。

Q3:InfoLaw推荐的最优数据配方有什么规律?

A:根据InfoLaw对不同模型和训练量的搜索结果,最优配方呈现出两条清晰规律:训练数据量越大,最优配方越倾向于使用更多样化的数据,而非把权重全部压注在最高质量数据上;模型参数量越少,最优配方越倾向于集中使用最高质量数据。简单说就是,小模型或小训练预算应优先保证数据质量,大模型或大训练预算则应兼顾数据多样性。这是因为高质量数据重复过多会造成严重的信息边际递减,大模型有足够容量消化更广泛的知识。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。